尽管 仍然 受到 战争 、 饥 场 、 环 境 等 问题 的 困扰 ， 但 无 法 否认 的 是 ， 人 类 正 处 于 历史 上 最 好 的 时 代 。 得 葵 于 计算 机 和 数据 处 理 
技术 的 飞速 友 展 ， 以 目 动 驾驶 汽车 、Siri 语 瘟 助 手 、 随 时 随地 的 手机 支付 等 为 代表 的 现代 技术 应 用 正 将 人 类 照顾 得 无 微 不 至 。 对 
于 数学 、 统 计 、 计 算 机 专业 的 人 来 襄 ， 这 更 是 一 个 最 好 的 时 代 ， 因 为 我 们 有 垃 见 证 了 机 器 学 习 、 目 然 语 言 处 理 、 高 速 计算 机 集群 
的 大 规模 应 用 ， 并 实 实在 在 地 改变 了 我 们 的 世界 。 


数据 分 析 对 于 业界 有 没有 用 ? 有 多 大 用 处 ?从 20 世 纪 示 的 冷遇 到 现在 的 如 日 中 天 ， 我 相信 很 多 人 都 感受 到 了 整个 世界 对 于 
数据 价值 理解 的 巨大 变化 。 在 这 十 多 年 中 ，R 作 为 数据 科学 最 为 青睐 的 语言 之 一 ， 迅 速 地 从 学 界 渗透 到 业界 ， 友 展 壮 大 。 


一 直 以 来 ，R 最 大 的 优势 束 是 全 球 统计 界 (现在 应 该 还 要 加 上 数据 科学 界 ) 的 强力 支持 (截至 我 写 这 篇 序 的 这 一 刻 ，CRAN 
上 已 经 有 7514 个 包 ) 。 这 一 点 是 任何 其 他 数据 分 析 工 具 所 不 可 比拟 的 (比如 SAS、Python、SPSS 等 ) 。 除 此 之 外 ，R 的 灵活 和 和 
开放 性 也 使 它 能 够 很 好 地 与 其 他 语言 和 数据 库 汐 通 ， 以 及 处 理 非 结 构 化 的 数据 。 


自从 2008 年 我 在 美 留学 期 间接 触 到 Ri 语言 以 来 ， 不 知 不 党 已 经 是 第 8 个 年 头 ， 而 中 国 的 R 语 言 大 会 也 已 经 如 火 如 茶 地 开 到 了 
第 八 届 。 这 几 年 中 ， 我 有 幸 目 睹 了 R 在 学 术 界 和 业界 的 迅速 友 展 ， 看 到 了 一 批 又 一 批 的 优秀 人 才 涌 入 到 数据 科学 的 浪潮 中 ， 而 我 
目 己 也 从 R 语 言 的 学 习 者 逐渐 转向 了 它 的 传播 者 。 这 几 年 来 ,我 在 大 学 教授 统计 /数据 分 析 课 程 ， 并 为 业界 解决 一 些 实际 问题 。 
以 我 浅薄 的 经 验 来 看 ， 一 方面 ， 残 业 市 场 对 于 统计 类 人 才 的 渴望 越 来 越 强烈 ， 然 而 另 一 方面 ， 统 计 系 毕 业 的 学 生 又 很 少 能 在 毕业 
时 拥有 在 实际 环境 中 处 理 数据 的 能 力 。 原 因 是 多 方面 的 ， 比 较 重 要 的 一 点 是 ， 很 多 学 校 在 教授 统计 /数据 分 析 类 课程 的 时 候 ， 缺 
少 真实 环境 下 的 分 析 能 力 培养 ， 教 材 也 多 偏重 于 统计 理论 或 者 R 语 言 的 基础 ， 合 适 的 教材 比较 匮乏 。 我 也 曾 考 虑 将 这 几 年 教学 和 
实践 中 对 于 数据 处 理 的 一 些 流程 技巧 整理 编 成 一 个 小 册子 ， 但 未 能 完成 。 


当 看 到 本 书 的 目录 时 ， 我 立刻 感觉 到 非常 强烈 的 共鸣 一 一 Viswa Viswanathan 教 授 已 经 将 R 数 据 分 析 完 美 呈 现 。 从 各 类 源 数 
据 的 读 入 和 调整 ， 数 据 分 析 前 的 准备 工作 、 清 洗 、 转 损 ， 到 面向 各 类 需求 的 各 种 模型 ， 再 到 能 够 显著 提高 效率 的 自动 化 报告 系统 
knitr 和 交互 式 可 视 化 系统 shiny， 最 后 到 与 Java、MySQL、MongoDB 和 Excel 之 间 的 配合 工作 ， 本 书 为 初级 和 中 级 数据 分 析 师 
准备 了 八 十 多 种 方法 ， 帮 助 他 们 完成 真实 场景 中 的 各 项 任务 。 


同时 ， 书 中 的 每 一 个 章节 都 相对 独立 ， 作 者 为 其 设 定 了 非常 清晰 的 内 容 结构 ， 尽 量 减 少 读者 不 停 翻 阅 前 文 的 情况 (当然 ， 第 
一 次 从 头 到 尾 读 下 来 的 读者 可 能 会 完 得 这 位 严谨 的 教授 有 点 烦 ， 但 当 你 在 半年 后 需要 查询 书 中 的 某 一 个 万 法 时 ， 也 许 会 改变 这 一 
MZ) 。 


最 后 ， 我 想 在 此 感谢 我 的 父母 和 我 的 妻子 ， 在 我 单单 翻译 到 深夜 的 日 子 里 ， 是 他 们 无 微 不 全 地 照顾 一 多 多 的 小 朋友 。 我 也 要 
感谢 Rigi， 你 为 这 个 家 庭 市 来 了 无 数 的 欢乐 ， 希 望 你 健康 快乐 地 成 长 。 


一 一 2015 年 11 月 23 日 ， 写 于 第 八 届 中 国 R 语 言 大 会 之 后 


作者 简介 


Viswa Viswanathan 是 西 顿 霍 尔 大 学 斯 蒂 尔 曼 商 学 院 计 算 和 决策 科学 系 的 一 名 副教授 。 在 获得 人 工 智 能 领域 的 博士 学 位 之 


ja, Viswasth STEESARLIE, Fe RRL ATI. EXERT), SMR F Infosys, Igate#Starbase 
公司 。 他 于 2011 年 重新 回归 学 术 界 。 


Viswa 人 在 非 党 广泛 的 领域 中 开展 教学 ， 包 括 运筹 和 学、 计算机 科学 、 软 件 工程 、 售 理 信 息 系统 ， 以 及 企业 系统 。 除 了 在 大 学 中 
教学 乙 外 ，Viswa 还 负责 专业 人 士 的 培训 项 目 。 他 有 多 篇 同行 评议 的 研究 论文 友 表 在 《Operations Research) (IEEE 
Software) «Computers and Industrial Engineering) LARK «International Journal of Artificial Intelligence in 


Education》 等 期 刊 上 。 他 也 编写 了 《Data Analytics with R: A hands-on approach) —#, 
Viswa 非 党 享受 杀 目 动手 开 友 软件 的 过 程 ， 并 且 独 立 构思 、 搭 建 、 开 及、 部 署 了 几 个 基于 网 络 的 应 用 程序 。 


除了 对 数据 分 析 、 人 工 智 能 、 计 算 机 科学 、 软 件 工 程 等 技术 领域 有 深厚 的 兴趣 之 外 ，Viswa 也 对 教育 有 浓厚 的 兴趣 ， 特 别 关 
注 学 习 的 根源 和 培养 更 深入 学 习 的 方法 。 他 已 经 在 这 个 领域 做 了 不 少 研 究 并 希望 在 未 来 继续 研究 这 一 学 科 。 


Viswa 想 对 Amitava Bagchi 和 Anup Sen 教授 表 示 由 衷 的 感激 ， 他 们 在 Viswa 的 早期 研究 生涯 中 鼓舞 了 他 。 同 时 ， 他 也 很 感 
激 几 个 非常 聪明 的 同事 ， 比 如 Rajesh Venkatesh, Dan Richner 和 sriram Bala， 他 们 极 大 地 影响 了 他 的 思想 。 他 的 娃 巡 
Analdavalli， 他 的 姐妹 Sankari， 以 及 他 的 妻子 Shanthi， 在 府 勤 工作 上 教会 了 他 很 多 ， 即 便 他 只 吸收 了 一 点 皮毛 也 党 得 受益 菲 
浅 。 他 的 儿子 Nitin 和 Siddarth 也 在 很 多 主题 上 给 出 了 不 计 其 数 的 深刻 评论 。 


Shanthi Viswanathan 是 一 位 经 验 丰 语 的 扩 术 专家 ， 她 为 许多 企业 客户 提供 技术 管理 和 企业 结构 和 咨询。 她 曾 工 作 于 
Infosys、Oracle 和 Accenture 人 公司。 作为 一 名 顾问 ，Shanthi 为 一 些 大 型 机 构 ， 比 如 Canon、5Cisco、Celgene、Amway、 
Time Warner Cable 和 GE 等 ， 在 数据 架构 和 分 析 ， 高 级 数据 管理 ， 面 向 服务 的 染 构 ， 商 业 流程 管理 ， 以 及 建 模 等 方面 提供 帮 
助 。 当 她 空 亲 时 ，shanthi 会 在 纽约 州 和 新 泽 西 州 的 郊外 徒步 旅行 ， 皖 弄 园 己 ， 以 及 教授 瑜伽。 


Shanthi 想 要 感谢 她 的 丈夫 Viswa， 在 他 们 一 起 徒步 旅行 时 天 于 各 种 主题 展开 的 深入 讨论 ; 以 及 将 她 带 入 R 和 和 Java 的 世界 。 她 
也 要 感谢 她 的 儿子 Nitin 和 Siddarth 使 她 进入 了 数据 分 析 领 域 。 


审 校 者 简介 


Kenneth D.Graves 相 信和 数据 科学 会 市 给 我 们 超 能 力 。 或 者 至 少 能 让 我 们 做 出 更 好 的 决策 。 他 在 数据 科学 和 技术 上 拥有 超过 
15 年 的 丰富 经 验 ， 特 别 擅长 机 器 学 习 、 大 数据 、 信 和 号 处 理 和 和 言 销 ， 以 及 社会 媒体 分 析 。 他 和 曾 融 职 于 财务 300 强 公司 ， 比 如 哥 伦 比 
亚 广播 公司 和 美国 无 线 电 公司 ， 以 及 金融 和 技术 类 公司 ， 致 力 于 设计 最 新 的 技术 和 数据 解决 方案 来 优化 商业 和 企业 决策 沅 程 并 提 
高 产 出 。 他 的 项 目 包括 脸 部 及 品牌 识别 ， 目 然 语言 处 理 ， 以 及 预测 分 析 。 他 使 用 R、Python、C++、Hadoop 和 和 SQL 这 些 语言 
(E, HESIA. 


Kenneth 在 数据 科学 、 商 业 、 电 影 、 古 典 语言 方面 都 拥有 学 位 或 认证 。 当 他 没有 致力 于 发 现 超 能 力 的 时 候 ， 他 是 一 名 数据 科 
学 家 ， 并 在 Soshag 家 社会 媒体 分 析 公 司 担任 CTO。 他 也 参与 大 波士顿 地 区 的 咨询 和 数据 科学 项 目 。 目 前 他 居住 在 马 萨 诸 
寨 州 的 韦 尔 斯 利 。 


我 想 感谢 我 的 妻子 了， 她 是 我 所 做 的 一 切 的 灵感 来 源 。 


Jithin S L 在 Loyola 理 工大 学 获得 了 他 的 信息 拉 术 学 士 学 位 。 他 在 分 析 领 域 开始 了 他 的 职业 生涯 ， 随 后 转向 了 多 个 大 数据 技 
术 垂 直 领 域 。 他 在 多 家 知名 企业 工作 ， 例 如 汤姆 森 路 透 、1BM、 Flytxt 等 。 他 的 工作 涉及 银行 业 、 能 源 、 保 健 以 及 电信 领域， 并 


商业 分 析 中 的 大 


且 参 与 过 大 数据 技术 的 全 球 项 目 。 
他 在 国内 和 国际 会 议 上 友 表 过 多 篇 技术 和 商业 领域 的 研究 论文 。 目 前 ，Jithin 是 1BM 公 司 的 系统 分 析 师 


Jithin 


数据 大 视野 和 优化 单元 。 
改变 能 让 我 们 思考 超过 人 类 极限 的 事物 ， 称 惧 改 变 同 时 也 提供 了 以 新 新 的 方式 学 到 二 新 事物 的 机 会 ， 试 验 、 探 索 ， 以 及 通 


往 成 功 的 机 遇 。 ” 


我 要 将 本 书 献 给 我 的 父亲 N.Subbian Asati、 我 垫 爱 的 母亲 M.Lekshmi， 以 及 我 可 爱 的 妹妹 S.LJishma; 有 了 他 们 的 协助 和 鼓励 我 


才能 评审 完 这 本 书 。 最 后 但 同样 重要 的 是 ， 我 想 感谢 我 所 有 的 朋友 。 
Dipanjan sarkar 是 世界 上 最 大 的 半导体 公司 Intel 的 一 位 IT 工程 师 ， 他 负责 分 析 和 企业 程序 开 上 友 的 工作 。 作 为 目前 业界 经 验 

的 一 部 分 ， 他 曾 在 印度 一 家 新 兴 的 大 数据 分 析 初 创 公 司 DataWeave 担 任 数 据 工 程 师 ， 并 在 研究 生 期 间 在 Intel 实 习 。 
Dipanjan 从 Bengaluru 的 国际 信息 技术 学 院 获 得 了 硕士 学 位 。 他 的 兴趣 包括 研究 新 技术 、 问 覆 性 的 初创 公司 ， 以 及 数据 科 


a= 


ATF 

学 。 他 也 审 校 了 《Learning R for Geospatial Analysis) —B. 

Hang (Harvey) Yu 毕业 于 伊利 诺 伊 大 学 厄 巴 纳 - 尚 佩 恩 分 校 并 获得 了 计算 生物 物理 学 博士 学 位 和 统计 学 硕士 学 位 。 他 在 数 

据 挖 据 、 机 器 学 习 和 统计 方面 都 有 着 丰富 的 经 验 。 过 去 ， 作 为 学 术 工 作 的 一 部 分 ，Harvey 涉 及 的 领域 包括 随机 过 程 模 拟 和 时 间 
. 令 


序列 (使 用 C 和 Python) 。 他 着 迷 于 算法 和 数学 建 模 。 之 后 他 进入 了 数据 分 析 领 域 。 
他 目前 是 硅 合 的 一 名 数据 科学 家 。 他 对 数据 科学 满怀 热情 。 他 基于 R 中 的 优化 万 法 和 预测 模型 开 友 了 一 些 统计 /数学 模型 


在 这 之 前 Harvey 在 ExXxonMobil 实 习 。 
不 编程 时 ， 他 会 踢 足 球 ， 阅 读 科 幻 书籍 ， 或 者 听 古 典 音 乐 。 可 以 通过 hangyu1@ilinois.edu 或 者 Linkedln 网 


址 www.linkedin.com/in/hangyu1 来 联系 他 .。 


了 度 获 得 了 指数 级 的 增长 。 一 些 电子 表格 


寄 和 希望 于 R。 类 似 


作为 一 种 统计 计算 、 数 据 分 析 和 绘图 环境 ， 上 自从 2000 年 1.0 版 本 问世 以 来 ，R 的 流 和 
用 户 想 要 完成 电子 表格 软件 无 法 实现 的 功能 ， 或 需要 处 理 的 数据 量 大 到 电子 表格 软件 无 法 方便 地 完成 ， 他 们 
寄 和 希望 于 用 R 快 速 处 理事 务 。 


地 ， 商 业 分 析 软 件 用 尸 也 被 这 个 免费 且 强 大 的 选项 所 吸引 。 于 是 ,一 大 群 人 目前 正 
丰富 的 使 用 者 也 很 难 将 所 有 的 


= A 
是 经 ! AVA 


fFA—TaA RNAS, RIEN MERZER, SARSAR. BE 
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用 户 可 以 在 几 分 钟 内 找到 合适 的 万 法 并 实施 ， 而 不 必 任 互联 网 或 众多 书籍 中 各 天 搜索 。 


本 书 涵盖 以 下 内 容 
第 1 章 涵盖 了 进行 真正 的 数据 分 析 任 务 之 前 的 准备 工作 。 本 章 提供 了 从 不 同 源 文件 格式 中 读 取 数据 的 方法 。 此 外 ， 在 实际 分 


析 数 据 前 ,我 们 执行 了 几 个 预 处 理 和 数据 清洗 步骤 ， 本 草 还 提供 了 以 下 任务 的 处 理 方法 : 处 理 缺 失 值 和 重复 值 、 数 值 的 缩放 或 标 


准 化、 在 数值 型 变量 和 分 类 变量 之 间 的 转换 ， 以 及 创建 哑 变 量 。 


第 2 章 讨 论 了 分 析 师 在 实施 特定 的 分 析 手 段 之 前 常用 来 理解 数据 的 几 种 做 去。 本章 提供 了 用 于 汇 思 数据、 分 割 数 据 、 抽 取 子 
集 和 建立 随机 数据 分 块 的 方法 ， 也 提供 了 使 用 标准 化 图 像 来 展现 潜在 模式 的 方法 ， 还 提供 了 使 用 lattice 和 ggplot2 包 绘图 的 方 
法 。 


第 3 章 涵盖 了 运用 分 类 技术 的 万 法 。 本 章 包括 分 类 树 、 随 机 森林 、 支 持 同 量 机 、 朴 素 贝 叶 斯 、K 最 近邻 、 神 经 网 络 、 线 性 和 
二 次 判别 分 析 ， 以 及 逻辑 回归 。 


第 4 章 是 关于 回归 技术 的 万 法 。 本 草包 括 K 最 近邻 、 线 性 回归 、 回 归 树 、 随 机 森林 和 神经 网 络 。 
第 5 章 介 绍 了 数据 人 简化 的 万 法。 本草 提供 了 通过 K- 均 值 和 系统 聚 类 的 聚 类 分 析 手 段 ， 同 时 也 涵 芋 了 主 成 分 分 析 。 


第 6 草包 含 了 一 些 瓜 15， 包 括 处 理 日 期 和 日 期 /时 间 对 象 ,， 创建 时 间 序 列 对 象 并 画图 ， 时 间 序 列 的 分 解 、 渡 波 和 平滑 ， 以 及 执 
行 ARIMA 分 析 。 


第 / 章 讨 论 了 社交 网 络 。 本 草 介 绍 如 何 通 过 公共 API 获 取 社 交 网 络 数据 ， 人 创建、 绘制 社交 网 络 图 ， 并 计算 重要 的 网 络 度量 指 


标 。 


第 8 章 讨 论 了 呈现 分 析 结 果 的 技术 。 本 章 包 含 以 下 方法 : 使 用 R Markdown 和 knitR 来 创建 报告 ， 通 过 使 用 shiny 创 建交 互 式 
应 用 使 读者 直接 与 数据 进行 交互 ， 用 RPres 创 建 幻灯 片 。 


第 9 草 解 决 了 面 对 大 型 数据 时 如 何 书 写 高 效 且 简 洁 的 R 代 码 的 问题 。 本 草包 含 了 通过 apply 系 列 立 数 、plyr 包 和 数据 表 来 切割 
数据 的 万 法 。 


第 10 草 包 售 了 开拓 R 在 处 理 空间 数据 上 的 强大 功能 的 主题 。 本 章 涵 蓄 了 以 下 万 法 : 通过 RGoogleMaps 来 获取 GoogleMaps 
数据 并 且 在 其 上 添加 自 有 数据 ， 导 入 ESRI 形 状 文件 并 绘图 ， 从 maps 包 中 导入 地 图 数据 ， 利 用 sp 包 创 建 并 绘制 空间 数据 框 对 象 。 


第 11 章 包含 了 R 与 其 他 系统 的 交互 。 本 章 包 含 了 R 与 Java、Excel、 关 系 型 数据 库 和 非 关 系 型 数据 库 (分 别 以 MySQL 和 
MongoDB 为 例 ) 之 间 的 连接 。 
阅读 须知 

本 书 中 的 所 有 代码 均 在 R 3.0.2 (Frisbee Sailing) 版 本 和 3.1.0 (Spring Dance) 版 本 上 测试 通过 。 当 安装 或 者 载 入 某 些 包 
时 ， 你 也 许 会 得 到 警告 消息 ， 提 示 你 这 些 代 码 是 为 不 同 的 版 本 编译 的 ， 不 过 这 并 不 会 实际 影响 本 书 中 的 任何 代码 。 
本 书面 癌 的 读者 对 象 


本 书 非常 适合 于 那些 已 经 有 一 定 的 R 基 础 ， 但 尚 无 将 R 广 泛 用 于 各 种 数据 分 析 的 经 验 ， 同 时 希望 快速 入 门 分 析 任 务 的 读者 。 
本 书 有 助 于 在 下 列 几 个 方面 提高 分 析 技 巧 的 人 士 : 


- 实现 高 级 分 析 并 创建 信息 充实 的 专业 图 表 。 
" 熟练 地 从 各 种 来 源 获 取 数 据 。 
> 应 用 监督 型 和 无 监督 型 的 数据 挖掘 技术 。 


` 使 用 R 的 功能 来 呈现 专业 的 分 析 报 告 。 


每 章 的 内 容 安排 


在 本 书 中 ， 你 会 友 现 有 几 个 标题 是 频繁 出 现 的 〈 准 备 融 绪 、 要 短 么 做 、 工 作 原 理 、 更 多 细节 、 参 考 内 容 ) 。 


为 了 让 读者 在 完成 一 个 方法 时 获得 清晰 的 指导 ， 我 们 及 用 了 以 下 内 容 编排 方式 : 


ER MER 


这 一 已 会 给 出 内 容 概述 ， 并 且 会 摘 述 如 何 准备 好 本 节 所 需 的 软件 以 及 任何 其 他 前 期 准备 工作 。 


这 一 蕊 包含 了 完成 方法 所 需 的 步骤 


工作 原理 


这 一 节 包 含 了 关于 所 用 方法 的 额外 信息 ， 以 便 让 读者 获得 一 个 更 加 全 面 的 认识 。 


这 一 节 提 供 了 其 他 有 用 信息 的 链接 。 

本 书 约定 
在 本 书 中 ， 你 会 友 现 我 们 使 用 不 同类 型 的 字体 来 区 分 不 同类 型 的 信息 。 下 面 有 一 些 例子 和 解释 。 
文字 形式 的 代码 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 、 路 径 名 、URL、 用 户 输 入 和 Twitter 账 尸 展示 如 下 : 
“ 鸭 数 read.csv0 从 .csv 文 件 的 数据 中 创建 了 一 个 数据 框 。 " 


代码 块 写成 如 下 形式 : 


> names (auto) 


[1] " No " "mpg i " cyl inders " 
[4] "displacement" "horsepower" "weight" 
[7] "acceleration" "model year" "car name" 


命名 行 的 输入 和 输出 写成 如 下 格式 ,: 


export LD LIBRARY PATH=$JAVA HOME/jre/lib/server 
export MAKEFLAGS="LDFLAGS=-Wl1,-rpath S$JAVA HOME/1ib/server" 


Giex 小 提示 和 小 技巧 出 现在 这 里 。 


ASKER RK 


下 载 代 码 沁 例 和 数据 


本 书 提供 代码 范例 和 数据 下 载 ， 读 者 可 登录 华章 网 站 (www.hzbook.com) 关于 本 书 的 页 面 获 取 相 天 资源 。 


天 于 本 书 中 用 到 的 数据 


我 们 已 经 生成 了 本 书 中 用 到 的 很 多 数据 文件 。 我 们 也 使 用 了 一 些 公 开 可 获取 的 数据 集 。 下 表 列 出 了 这 些 公 开 的 数据 集 。 大 部 
分 公开 数据 集 来 自 于 加 州 大 学 欧文 分 校 的 机 器 学 习 库 http://archive.ics.uci.edu/ml/。 表 中 我 们 用 “下 载 自 UCl-MLR” 来 标志 这 


些 数 据 集 。 


数据 文件 名 来 源 
Quinlan. R. Combining Instance-Based and Model-Based Learning. Machine Learning 
Proceedings on the Tenth International Conference 1993, 236-243, held at University of 
auto-mpg.csv | l 
Massachusetts, Amherst published by Morgan Kaufmann. 
(下 载 自 UCI-MLR) 

l D. Harrison and D.L. Rubinfeld, Hedonic prices and the demand for clean air, Journal for 
BostonHousing. csv pai 
Environmental Economics a Management, pages 81—102, 1978. ( 下载 和 UCI-MLR) 

Fanaee-T. Hadi. and Gama. Joao, Event labeling combining ensemble detectors and 
daily-bike- rentals.csv background knowledge, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin 
Heidelberg. ( 下 载 自 UCI-MLR) 
* 数据 库 来 源 : Volker Lohweg, University of Applied 
Sciences, Ostwestfalen-Lippe 
banknote- authentication. csv * 数据 库 捐赠 : Helene Darksen, University of Applied 
Sciences, Ostwestialen-Lippe 
(下 载 自 UCI-MLR) 
Robust Regression and Outlier Detection, P. J. Rouseeuw and A. M. Leroy, Wiley, 1987. 
education.csv side ' 
(下 载 自 UCI-MLR) 


walmart.csv 


F&A Yahoo! 金融 
walmart- monthly.csv 
prices.csv Rak A Se Stitt ay 
infy.csv, infy- monthly.csv fF 4k A Yahoo! 金融 


下载 目 新 洋 西 州 教育 部 网 站 以 及 
http://federalgovernmentzipcodes.us. 
Ma A EAE PY: 
http://en.wikipedia.org/wiki/List_ of counties in New Jersey 


nj-wages.csv 


nj-county-data. csv 


下 载 本 书 中 的 彩色 图 片 


我 们 为 你 提供 了 本 书 中 用 到 的 截图 和 图 表 的 彩色 PDF 文件 。 这 些 彩 图 有 助 于 你 更 好 的 理解 输出 中 的 变化 。 可 以 
Mhttps://www.packtpub.com/sites/default/files/downloads/90650S Colorlmages.pdf 下 载 这 个 文件 ， 也 可 以 登录 华章 网 


站 获取 相关 内 容 。 


一 数据 


Sle RMA ERMA 


数据 分 析 师 需要 从 多 种 输入 格式 中 加 载 数据 到 R。 尽 管 R 有 其 自 有 的 原生 的 数据 格式 ， 很 多 数据 常常 以 文本 格式 存在 ， 比 如 
CSV (逗号 分 隔 值 ) 格式 、JSON (JavaScript 对 象 标 注 ) 格式 ， 以 及 XML (可 扩展 标记 语言 ) 格式 。 本 章 提供 的 方法 可 将 这 些 


运行 算法 。 


类 型 的 数据 读 入 R 从 而 可 以 在 其 上 
生 导 入 数据 之 后 ， 我 们 很 少 能 直接 开始 分 析 数 据 。 通 常 我 们 需要 在 分 析 之 前 做 一 些 清 洗 和 数据 转换 的 工作 。 本 章 为 一 些 常 用 


的 清洗 处 理 流 程 提 供 了 万 法 。 


一 数据 


Ble RMA ERMA 


数据 分 析 师 需要 从 多 种 输入 格式 中 加 载 数据 到 R。 尽 管 R 有 其 自 有 的 原生 的 数据 格式 ， 很 多 数据 常常 以 文本 格式 存在 ， 比 如 
CSV (逗号 分 隔 值 ) 格式 、JSON (JavaScript 对 象 标 注 ) 格式 ， 以 及 XML (可 扩展 标记 语言 ) 格式 。 本 章 提供 的 方法 可 将 这 些 


类 型 的 数据 读 入 R 从 而 可 以 在 其 上 运行 算法 。 
在 导入 数据 之 后 ， 我 们 很 少 能 直接 开始 分 析 数 据 。 通 常 我 们 需要 在 分 析 之 前 做 一 些 清 洗 和 数据 转换 的 工作 。 本 章 为 一 些 常 用 


的 清洗 处 理 流 程 提 供 了 万 法 。 


1.2 ”从 csv 文 件 中 读 取 数 据 


文件 最 适合 用 来 表述 一 组 或 一 系列 具有 完全 一 致 的 属性 列表 的 记录 。 它 对 应 着 关系 型 数据 库 中 的 单一 天 系 或 者 典型 电子 表格 


中 的 数据 。 


准备 就 绪 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 那 么 现在 去 下 载 然后 确保 将 auto-mpg.csv 放 置 在 你 的 R 工 作 目 录 中 。 


用 以 下 命令 从 csv 文 件 中 读 取 数据 : 


1) 读 取 auto-mpg.csv， 包 括 抬头 行 : 


> auto <- read.csv("auto-mpg.csv", header=TRUE, sep = ",") 
2) 验证 结 
> names (auto) 
工作 原理 


read.csv 水 数 从 .csv 文 件 中 创建 了 一 个 数据 框 。 当 我 们 传递 了 参数 header=TRUE， 则 这 个 立 数 用 第 一 行 来 命令 数据 框 的 变 


E=. 
里 . 


> names (auto) 


[1] "No " "mpg " " cyl inders" 
[4] "displacement" "horsepower" "weight" 
[7] "acceleration" "model year" "car name" 


参数 header 和 sep 可 以 指定 .csv 文 件 是 否 有 抬头 以 及 用 于 分 隔 不 同属 性 的 字符 是 什么 。 对 于 read.csv0 了 水 数 ， 其 默认 参数 为 
header=TRUE 和 sep=","。 我 们 可 以 在 本 例 中 省 略 这 部 分 代码 。 


read.csv0 遂 数 是 read.table() 的 一 个 特殊 形式 。 后 者 使 用 空格 作为 默认 的 属性 分 隔 符 。 我 们 将 会 讨论 这 些 函 数 的 一 些 重 要 的 
可 选 参数 。 


1. 处 理 不 同 的 列 分 隅 符 


在 一 些 国家 和 地 区 ， 逗 号 用 于 表示 十 进 制 分 隔 符 ， 而 .csv 文 件 使 用 ";" 作 为 属性 分 隔 符 。 当 处 理 这 样 的 数据 时 ， 我 们 使 用 
read.csv2() 将 数据 导入 R 中 。 


或 者 也 可 以 用 read.csv ("<file name>", sep=";", dec=",") 命令 。 对 于 tab 分 隔 符 文件 ， 使 用 sep="\t" 参 数 。 
2. 处 理 列 名 /变量 名 
如 果 你 的 数据 没有 列 名 ， 使 用 header=FALSE 这 个 参数 。 


auto-mpg-noheader.csv 文 件 不 包括 抬头 行 ， 下 述 第 一 条 命令 读 取 了 文件 。 本 例 中 ，R 为 变量 赋予 了 默认 变量 名 V1、V2 


等 . 
wT: 


> auto <- read.csv("auto-mpg-noheader.csv", header=FALSE) 
> head (auto, 2) 


VI V2 V3 V4 V5 V6 V7 V8 V9 
1 128 4 140 90 2264 15.5 71 chevrolet vega 2300 
2 #21419 3 MISI 23350 13.5 I2 mazda rx2 coupe 


如 果 你 的 文件 没有 抬头 行 ， 而 你 又 省 略 了 header=FALSE 这 个 选项 ， 则 read.csv(0 函 数 会 将 第 一 行 作为 变量 名 ， 并 且 变 量 名 
的 构建 方法 为 第 一 行 数据 值 前 面 加 上 X。 请 注意 下 述 片段 中 无 意义 的 变量 名 : 


> auto <- read.csv("auto-mpg-noheader.csv") 
> head(auto, 2) 


X1 X28 X4 X140 X90 X2264 X15.5 X71 chevrolet.vega.2300 
x was 4 I Sy 2330 13.5 H mazda rx2 coupe 
3 36 4 107 75 2205 14.5 82 honda accord 


N FR 


我 们 可 以 用 可 选 参数 col.names 来 指定 列 名 。 当 直接 给 出 col.names 时 ， 即 使 header=TRUE 被 指定 ， 抬 头 行 中 的 名 字 也 会 
航 忽 略 : 
> auto <- read.csv("auto-mpg-noheader.csv", 
header=FALSE, col.names = 


tho" ; "mpg", PEDET, "Oar - fit" ; 
"wt W i " acc Ê" : "year" M "car name Ê" ) ) 


> head (auto, 2) 


No mpg cyl dis hp wt acc year car name 
1 1 28 4 140 90 2264 15.5 71 chevrolet vega 2300 
2 2 19 3 A0 SF 23950 FS T2 mazda rx2 coupe 
3. 应 对 缺失 值 


当 从 文本 文件 中 读 入 数据 时 ，R 将 数据 型 变量 中 的 空格 记 为 NA (缺失 值 的 记号 ) 。 默 认 情 况 下 ， 分 类 型 变量 中 的 空格 会 被 
记 为 空格 而 非 NA。 若 要 将 分 类 或 字符 变量 中 的 空格 也 记 为 NA， 可 以 设置 参数 na.strings=”: 


> auto <- read.csv("auto-mpg.csv", na.strings="") 


若 数据 文件 使 用 一 种 特别 的 字符 串 〈 比 如"N/A" 或 "NA") 。 你 可 以 用 参数 na.strings 来 指定 它 。 比 如 na.strings="N/A" 或 
na.strings="NA", 


4. 将 字符 串 读 取 为 字符 而 非 因 子 


默认 情况 下 ，R 认 为 字符 串 代 表 了 因子 。 有 些 情况 下 ， 你 也 许 希 望 将 它们 继续 保留 为 字符 串 。 你 可 以 通过 设置 参数 
stringsAsFactors=FALSE 来 实现 这 个 目的 : 


> auto <- read.csv("auto-mpg.csv",stringsAsFactors=FALSE) 


为 了 有 选择 地 将 变量 作为 字符 串 来 处 理 ， 可 以 用 默认 设置 导入 数据 ( 即 读 入 字符 串 为 因子 ) ， 然 后 用 as.character() 来 转换 


指定 的 因子 变量 为 字符 变量 。 
5. 和 直接 从 网 站 上 读 取 数 据 


当 数 据 文件 可 以 从 网 站 上 获取 时 ， 你 可 以 直接 在 R 中 导入 它 而 不 需要 先 下 载 到 本 地 后 再 导入 R: 


> dat <- read.csv("http://www.exploredata.net/ftp/WHO.csv") 


1.3” 读 取 XML 数 据 


你 有 时 候 可 能 需要 从 网 站 上 抽取 信息 。 很 多 数据 提供 者 也 同时 提供 XML 和 JSON 格 式 的 数据 。 在 本 万 法 中 ， 我 们 学 习 如 何 读 
取 XML 数 据 。 
EMER 

WOR RA RXMLA,, FAME FIDE aR: 


> install.packages ("XML") 


Be FARO RELA : 


1) 载 入 包 和 初始 化 : 


> library (XML) 
> url <- "http://www.w3schools.com/xml/cd catalog.xml" 


2) 解析 XML 文件 得 到 根 节 点 : 


> xmldoc <- xmlParse (url) 
> rootNode <- xmlRoot (xmldoc) 
> rootNode [1] 


3) 抽取 XML 数据 : 


> data <- xmlSApply(rootNode,function(x) xmlSApply(x, xmlValue) ) 


4) 将 抽取 出 的 数据 转换 成 数据 框 : 


> cd.catalog <- data.frame (t (data) , row.names=NULL) 


5) 验证 结果 : 


> Gd.datalog[1=2,.1 


工作 原理 
xmlParse 遂 数 返 回 一 个 属于 XMLinternalDocument 类 的 对 象 ， 这 是 一 个 C 级 的 内 在 数据 结构 。 


xmlRoot0 尔 数 可 以 连接 到 根 书 点 和 它 的 元 素 。 我 们 查看 根 节 点 的 第 一 个 元 素 : 


> rootNode [1] 


$CD 


<CD> 
<TITLE>Empire Burlesgque</TITLE> 
<ARTIST>Bob Dylan</ARTIST> 
<COUNTRY>USA< /COUNTRY> 
<COMPANY>Columbia< /COMPANY> 
<PRICE>10.90</PRICE> 
<YEAR>1985</YEAR> 

of C= 

SEEFF ("CIH") 

[1] "XMLInternalNodeList" "XMLNodeList" 


AS AIRT ARAE. ERP ARRIA TF PARLARE FaxmlSApply()eax. xmSApplyAšuRE— NEE, 


JI T ABBE NRG, FARR, AnA cd.catalogHihRHAI AT : 


< od-catalogili:2,] 


TITLE ARTIST COUNTRY COMPANY PRICE YEAR 
1 Empire Burlesque Bob Dylan USA Columbia 10.90 1985 
2 Hide your heart Bonnie Tyler UK CBS Records 9.90 1988 


XML 数 据 可 以 深度 柑 套 ， 因 此 抽取 工作 会 很 复杂 。 了 人 解 XPath 会 有 助 于 连接 到 指定 的 XML 标 签 。R 提 供 了 xpathSApply 和 和 
getNodeset 等 几 个 函数 来 定位 一 些 指定 的 元 素 。 


1. 从 网 页 上 抽取 HTML 表 格 数据 


尽管 可 以 把 HTMI| 数据 看 成 一 种 特殊 形式 的 XML，R 仍 然 提供 了 用 以 抽取 HTML 表 格 的 专用 函数 ， 如 下 所 示 : 


> url <- "http://en.wikipedia.org/wiki/World population" 
> tables <- readHTMLTable (url) 
> world.pop <- tables[[5]] 


readHTMLTable0 函 数 分 析 了 网 页 并 返回 了 所 有 表格 的 一 个 列表 。 对 于 有 id 属 性 的 表格 ， 这 个 遂 数 将 id 属 性 作为 列表 元 素 的 
名 称 。 


我 们 对 抽取 “10 个 最 受 欢 迎 的 国家 ”这 个 信息 很 感 兴趣 ， 它 是 第 五 张 表格 ， 因 此 我 们 用 tables[[5]]. 
2. 从 网 页 上 抽取 一 个 单独 的 HTML 表 格 
可 用 下 列 命 令 抽 取出 一 个 单独 的 表格 : 


> table <- readHTMLTable (url,which=5) 


用 which 来 指定 从 某 一 个 表格 采集 数据 。R 返 回 一 个 数据 框 。 


1.4 ” 读 取 JSON 数 据 


一 些 网 站 令 人 欣慰 地 提供 了 可 返回 为 JSON 格 式 的 数据 。 在 某 些 方面 ， 这 个 格式 比 XML 更 加 简单 ， 更 加 有 效 。 这 里 的 方法 展 
示 了 如 何 读 取 JSON 数 据 。 


准备 束 绪 
R 提 供 了 几 个 包 来 读 取 JSON 数 据 。 我 们 使 用 jsonlite 包 。 可 用 以 下 命令 在 你 的 R 环 境 中 安装 这 个 包 : 


> install.packages ("jsonlite") 


如 果 你 还 没有 下 载 本 章 数据 文件 ， 现 在 去 下 载 ， 然 后 确保 将 students.json 和 student-courses.json 放 置 在 你 的 R 工 作 目 录 
中 。 


要 怎么 做 
当 文 件 都 准备 好 之 后 ， 用 以 下 命令 载 入 jsonlite 包 ， 并 读 取 文件 : 
1) 载 入 包 : 
> library (jsonlite) 


2) 从 文件 中 载 入 JSON 格 式 的 数据 : 


> dat.1 <- fromJSON("students.json") 
> dat.2 <- fromJSON("student-courses.json") 


3) 从 网 页 中 载 入 JSON 格 式 的 文件 : 


> url <- "http://finance.yahoo.com/webservice/vl/symbols/ 
allcurrencies/quote?format=json" 


> jsonDoc <- fromJSON (url) 


4) 将 数据 抽取 到 数据 框 中 : 
> dat <- JsonDoc$list$resourcess$resourcesfields 
> dat.1 <- jsonDoc$list$resourcesSresourceSfields 
> dat.2 <- jsonDoc$list$resourcesSresourceS$Sfields 
5) 验证 结 


> dat[1:2,] 
S dat..7 23.) 
> dat- GL 45) 7 


工作 原理 


jsonlite 包 提供 了 两 个 核心 水 数 fromJSON 和 toJSON。 


就 像 步 骤 2 和 步骤 3 展示 的 那样 ，fromJSON 函 数 可 以 直接 从 文件 或 者 网 上 读 取 数据 。 如 果 你 从 网 上 下 载 内 容 时 出 错 ， 那 么 安 
装 并 加 载 httr 包 。 


根据 JSON 文 件 的 结果 ， 加 载 数据 的 复杂 程度 不 一 。 


给 定 URL 之 后 ，fromJSON 返 回 一 个 列表 对 象 。 在 之 前 的 步骤 4 中 ， 我 们 已 经 知道 如 何 抽 取出 一 个 数据 框 。 


1.5 ”从 定 宽 格式 文件 中 读 取 数据 

人 在 定 宽 格式 文件 中 ， 每 一 询 都 有 固定 的 宽度 。 若 一 个 数据 元 素 没 有 用 到 整个 所 属 宽度 ， 则 数据 元 素 会 后 接 空 格 来 达到 指定 的 
宽度 。 为 了 读 取 一 个 定 宽 的 文本 文件 ， 我 们 需要 指定 每 列 的 宽度 或 每 列 的 起 始 位 置 。 
准备 就 绪 


下 载 本 章 的 数据 文件 并 将 student-fwf.txt 放 置 在 你 的 R 工 作 目录 中 。 


用 以 下 命令 读 取 定 宽 文 件 : 


> student <- read.fwf ("student-fwf .txt", 
widths=c(4,15,20,15,4), 
col.names=c("id", "name", "email", "major", "year") ) 


工作 原理 


在 student-fwf.txt 文 件 中 ， 第 一 列 横 跨 了 4 个 字符 位 置 。 第 二 列 模 跨 了 15 个 ， 等 等 。c (4, 15, 20, 15, 4) 这 个 表达 陈 制 
订 了 文件 中 5 列 的 宽度 。 


我 们 用 可 选 的 col.names 参 数 来 提供 所 需 的 变量 名 。 


read.fwf0 尔 数 包括 几 个 万 便 的 可 选 参数 。 我 们 现在 来 讨论 其 中 一 些 参 数 。 
1. 包 含 抬头 的 文件 


处 理 包 含 拾 头 的 文件 需要 使 用 以 下 命令 : 


> student <- read.fwf ("student-fwf-header.txt", 
widths=c(4,15,20,15,4), header=TRUE, sep="\t",skip=2) 


若 header=TRUE， 文 件 的 第 一 行 被 解释 为 列 名 。 当 列 名 存在 时 ， 需 要 用 sep 参 数 来 指定 列 名 之 间 的 分 隅 待 。 这 个 sep 参 数 只 
应 用 与 抬头 行 。 


skip 参 数 用 于 指明 需要 跳 过 多 少 行 ; 在 本 章 的 万 法 中 ， 前 两 行 被 跳 过 了 。 


2. 从 数据 中 排除 东 些 列 


负 的 列 宽 可 以 将 这 一 列 排除 在 外 。 因 此 ， 如 果 要 排除 e-mail 这 一 列 ， 我 们 指定 其 宽度 为 -20 并 将 它 的 列 名 从 col.names 中 删 
除 。 


> student <- read.fwf ("student-fwf.txt",widths=c(4,15,-20,15,4), 
col.names=c("id", "name", "major", "year") ) 


1.6 ”从 R 数 据 文件 和 R 库 中 读 取 数据 


在 数据 分 析 中 ， 你 会 创建 一 些 R 对 象 ， 可 以 将 其 保存 为 原生 的 R 数 据 格式 ， 并 在 之 后 需要 时 将 其 导入 
ER MEA 
首先 ， 用 以 下 命令 创建 并 保存 R 对 和 象 ， 你 必须 确保 你 在 R 工 作 目 录 中 有 写 入 权限 : 


customer <- c("John", "Peter", "Jane") 

orderdate <- as.Date(c('2014-10-1','2014-1-2','2014-7-6')) 
orderamount <- c(280, 100.50, 40.25) 

order <- data.frame (customer, orderdate,orderamount ) 

names <- c("John", "Joan") 

save (order, names, file="test.Rdata") 

saveRDS (order, file="order.rds") 


VV V Vv V V V V 


remove (order) 


AXES LA, Hremove) ah LERAP. 


TRO RAR, MRF PIES : 
1) 从 R 数 据 文件 和 库 中 载 入 读 取 数 据 : 


> load("test.Rdata") 
> ord <- readRDS ("order.rds") 


2) R 会 默认 加 载 datasets 包 ， 其 中 包含 iris 和 cars 数 据 集 。 用 如 下 命令 将 这 些 数据 加 载 到 内 存 中 : 


> 
> data (List = Baars Mirig") 


第 一 行 命令 只 加 载 了 iris 数 据 集 ， 第 二 行 命令 加 载 了 cars 和 iris 数 据 集 。 


工作 原理 


save( 阔 数 可 以 通过 指定 对 象 名 称 和 版 本 名 称 来 将 对 象 保 仓 为 不 同 版 本 的 格式 。 后 续 的 load(0 函 数 可 以 通过 对 稼 的 保存 名 来 


还 原 保存 的 对 象 。 默 认 情 况 下 还 原 到 全 局 环境 中 。 如 果 环 境 中 存在 同名 对 象 ， 则 它们 会 被 直接 蔡 换 而 不 会 有 警告 信息 。 


saveRDS0 冰 数 只 能 保存 一 个 对 象 。 它 只 保存 对 象 而 不 保存 对 象 名 。 因 此 通过 readRDS0O 消 数 将 保存 的 对 象 还 原 时 可 能 会 被 
赋予 不 同 的 变量 名 。 


更 多 细节 
前 述 方法 已 经 展示 了 如 何 读 取 已 保存 的 R 对 象 。 在 这 一 节 中 我 们 将 看 到 更 多 的 选择 。 
1. 保 仔 一 次 会 语 中 的 所 有 对 象 
下 列 命 令 被 用 来 保存 所 有 对 象 : 
> save.image (file = "all.RData") 
2 在 一 次 会 话 中 有 选择 地 保存 对 旬 


用 以 下 命令 来 选择 性 地 保存 对 象 : 


> odd <- c(1,3,5,7) 
> even <- c(2,4,6,8) 
> save (list=c ("odd", "even") , file="OddEven.Rdata") 


list 参 数 可 以 指定 一 个 包含 了 需要 保存 的 对 象 名 的 字符 向 量 ， 然 后 ， 从 OddEven.Rdata 文 件 载 入 数据 会 创建 对 象 odd 和 
even。SsaveRDS(0 上 为数 一 次 只 能 保 仔 一 个 对 象 。 


3. 为 工作 环境 加 载 / 郝 载 R 数 据 文 件 


当 载 入 Rdata 文 件 时 ， 如 果 我 们 想 被 告知 当前 环境 中 是 否 有 同名 对 象 ， 可 以 使 用 : 


> attach("order.Rdata") 


order.Rdata 文 件 中 包含 对 象 order。 如 果 当 前 环境 中 已 经 有 一 个 名 为 order 的 对 象 ， 则 我 们 得 到 如 下 警告 信息 : 


The following object is masked by .GlobalEnv: 


order 


4. 列 出 已 加 载 包 中 的 所 有 数据 集 


可 以 用 如 下 命令 列 出 所 有 已 载 入 的 包 中 包含 的 数据 集 : 


> data () 


1.7 ”删除 市 有 缺失 值 的 梓 本 


数据 集会 包 合 效 据 不 一 的 缺失 值 。 当 有 足够 多 的 数据 时 ， 我 们 有 时 〈 并 不 总 是 ) 希望 删除 那些 包含 一 个 或 者 多 个 缺失 变量 的 


样本 。 有 时 我 们 也 会 希望 有 选择 地 删除 那些 在 一 个 指定 变量 上 有 缺失 值 的 样本 。 


EMER 


下 载 missing-data.csv 文 件 并 放 入 你 的 R 工 作 目 录 中 。 从 missing-data.csv 文 件 中 读 取 数据 时 需要 仔细 定义 代表 缺失 值 的 字 
符 串 。 在 我 们 的 文件 中 ， 缺 失 值 用 空 字符 串 代表 : 


> dat <- read.csv("missing-data.csv", na.strings="") 


为 了 得 到 一 个 由 不 含 任何 缺失 值 的 样本 所 组 成 的 数据 框 ， 可 以 使 用 na.omit0 函 数 : 


> dat.cleaned <- na.omit (dat) 


现在 ，dat.cleaned 只 包含 dat 中 无 任何 缺失 值 的 样本 。 


工作 原理 


ha.omit() 浮 数 内 部 调用 了 is.na0 尔 数 ， 这 个 遂 数 允许 我 们 来 友 现 其 参数 是 否 为 NA 的 。 当 其 作用 于 一 个 单一 值 ， 则 返回 一 个 
布尔 值 。 当 其 作用 于 一 组 值 ， 则 返回 一 个 向 量 : 


> is.na(dat [4,2] ) 
[1] TRUE 


> is.na(datSIncome) 

[1] FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE 
[10] FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE 
[19] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 


有 时 候 你 需要 做 的 不 仅仅 是 简单 地 删除 包含 任何 缺失 值 的 样本 。 我 们 在 这 一 节 中 讨论 几 个 选择 。 


1. 删 除 那 些 在 选 定 的 变量 上 有 缺失 值 的 样本 


有 时 候 我 们 需要 有 选择 地 删除 那些 仅仅 在 某 个 变量 上 是 缺失 的 样本 。 这 个 例子 数据 框 的 income 变 量 中 有 两 个 缺失 值 。 为 了 
得 到 一 个 只 删除 这 两 个 样本 的 数据 框 ， 可 以 使 用 : 
> dat.income.cleaned <- dat[!is.na(datSIncome) , ] 


> nrow(dat.income.cleaned) 
[1] 25 


2. 找 出 不 合 缺 失信 的 样本 


complete.cases() 销 数 将 数据 框 或 者 表格 作为 参数 并 返回 一 个 布尔 向 量 ， 其 值 为 真 代表 了 对 应 行 不 含 缺 失 值 ， 其 值 为 假 代表 
了 对 应 行 有 缺失 值 : 


> complete.cases (dat) 
[1] TRUE TRUE TRUE FALSE TRUE FALSE TRUE TRUE TRUE 


[10] TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE 
[19] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 


第 4、6、13 和 17 行 至 少 有 一 个 缺失 值 ， 除 了 使 用 na.omit0 国 数 ， 也 可 以 用 如 下 做 法 : 


> dat.cleaned <- dat [complete.cases (dat) ,] 
> nrow(dat.cleaned) 
ii] 23 


3. 将 特定 值 转换 为 NA 


有 时 候 ， 我 们 知道 数据 框 中 的 某 个 特定 值 其 实意 味 着 数据 不 存在 。 例 如 dat 数 据 中 的 income 变 量 的 值 为 0 可 能 束 意 味 着 数据 
缺失 。 我 们 可 以 用 一 个 简单 的 赋值 来 将 这 些 0 转 换 为 NA。 


> datSIncome [datSIncome==0] <- NA 
4. 在 计算 时 排除 缺失 值 


很 多 R 遂 数 在 处 理 缺 失 数 据 时 会 得 到 NA 的 返回 值 。 例 如 ， 计 算 一 个 包含 至 少 一 个 NA 值 的 向量 的 均值 或 者 标准 大 . 束 会 返回 
NA 值 。 为 了 将 NA 值 排除 在 计算 之 外 ， 可 以 用 na.rm 参 数 。 


> mean (dat$SIncome) 
[1] NA 


> mean(datSIncome, na.rm = TRUE) 
[1] 65763.64 


1.8 用 均值 填充 缺失 值 


当 直 接 忽略 了 含有 任何 缺失 值 的 样本 时 ， 你 会 损失 很 多 有 用 的 信息 。 这 些 信 息 包含 在 这 些 样 本 的 非 缺 失 数据 部 分 中 。 你 有 时 
mee JERR SENSE (合理 意味 着 不 会 严重 影响 分 析 结 果 ) 。 


ER ZR 


下 载 missing-data.csv 文 件 并 保存 在 你 的 R 工 作 目 录 中 。 


读 取 数据 并 蔡 换 缺失 值 : 


> dat <- read.csv("missing-data.csv", na.strings = "") 
> datSIncome.imp.mean <- ifelse(is.na(datS$Income), 
mean(datSIncome, na.rm=TRUE), datSIncome) 


这 样 ，Income 中 的 所 有 的 NA 值 残 会 被 原始 数据 的 平均 值 所 蔡 损 。 


工作 原理 


前 述 ifelse() 辫 数 会 在 其 第 一 个 参数 为 NA 的 时 候 返 回 计 算出 的 均值 ， 反 之 ， 它 会 返回 第 一 个 参数 的 值 。 


对 于 具有 缺失 值 的 分 类 变量 ， 你 无 法 计算 均值 ， 所 以 需要 另 一 种 解决 方法 。 即 使 对 于 数值 变量 ， 我 们 有 时 候 也 并 不 希望 用 均 


值 来 代 蔡 缺失 值 。 我 们 这 里 讨论 一 个 党 用 的 方法 。 


从 非 缺失 的 全 中 抽样 得 出 随机 信 


如 果 你 想 从 有 某 个 变量 的 非 缺 失 值 中 抽样 生成 随机 值 用 来 蔡 损 缺失 值 。 可 以 使 用 如 下 这 两 个 函数 : 


rand.impute <- function(a) { 
missing <- is.na(a) 
n.missing <- sum(missing) 
a.obs <- a[!missing] 
imputed <- a 
imputed[missing] <- sample (a.obs, 


return (imputed) 


} 


random.impute.data.frame <- function(dat, 


n.missing, replace=TRUE) 


cols) { 


nms <- names (dat) 


for(col in cols) { 
name <- paste(nms[col],".imputed", sep = 
dat [name] <- rand.impute(dat[,col] ) 


} 


dat 


W n) 


通过 这 里 的 两 个 了 为数， 你 可 以 为 Income 和 Phone type 构 造 基于 随机 抽样 的 值 : 


> dat <- read.csv("missing-data.csv", na.strings="") 


> random.impute.data.frame(dat, c(1,2)) 


1.9 删除 重复 样本 


我 们 有 时 候 得 到 一 毕 重 复 样本 ， 和 希望 只 保留 重复 样本 中 的 一 份 。 


ER MER 
创建 一 个 样 例 数据 集 : 


> salary <- c(20000, 30000, 25000, 40000, 30000, 34000, 30000) 

> amily -size c- ¢c(4,;3,2:2;3,4;3) 

> Car <- o(*®iwwory",; *"Compact”™; "Midsize", “Luxury, 
"Compact", "Compact", "Compact") 


> prospect <- data.frame(salary, family.size, car) 


unique( 国 数 能 够 胜任 这 个 工作 。 它 将 向 量 或 数据 框 作为 参数 并 返回 一 个 同类 的 对 象 ， 其 中 的 重复 样本 已 被 删除 。 
获取 唯一 值 : 


> prospect.cleaned <- unique (prospect) 
> nrow(prospect) 

[1] 7 

> nrow(prospect.cleaned) 

[yi & 


工作 原理 


unique0 函 数 将 同 量 或 者 数据 框 作为 参数 输入 ， 并 返回 一 个 同类 型 的 对 象 ， 其 中 重复 样本 已 被 删除 。 对 于 非 重复 的 样本 ， 它 
返回 原始 输入 样本 。unique0 函 数 的 返回 值 中 只 包含 重复 样本 中 的 一 份 。 


有 时 候 我 们 只 需要 每 别 出 重复 值 ， 而 不 需要 删除 它们 。 
签 别 出 缺失 值 ( 而 非 删 除 它们 ) 


对 于 这 个 目的 ,我们 可 以 使 用 duplicated0 阅 数 : 


> duplicated (prospect) 
[1] FALSE FALSE FALSE FALSE TRUE FALSE TRUE 


IPDS, FTA FAC, SAI7 SESH. EARBA RRC ER. WRB ROMA, E 
并 不 会 被 记 为 重复 样本 。 
用 以 下 代码 列 出 重复 值 : 
> prospect [duplicated (prospect), | 


salary family.size car 
5 30000 3 Compact 
7 30000 3 Compact 


1.10 ”将 变量 缩放 全 [0，1] 区 间 

距离 计算 在 很 多 数据 分 析 技 术 中 占有 重要 地 位 。 我 们 知道 数值 大 的 变量 在 距离 计算 中 占据 了 统治 地 位 ， 因 此 你 可 能 想 要 重新 
缩放 数值 到 0~ 1 区间。 
准备 就 绪 

安装 scales 包 并 从 本 章 的 数据 文件 中 读 入 data-conversion.csv 文 件 到 你 的 R 工 作 环境 中 : 


> install.packages ("scales") 
> library (scales) 
> students <- read.csv("data-conversion.csv") 


将 Income 变 量 重 新 缩放 至 [0，1] : 


> studentsSIncome.rescaled <- rescale(studentsSIncome) 


工作 原理 
rescale(0 上 函数 将 最 小 值 转换 成 0， 最 大 值 转换 成 1。 它 将 其 他 所 有 值 按 比 例 缩 放 。 以 下 两 个 表达 陈 会 给 出 完全 一 致 的 结果 : 


> rescale(studentsSIncome) 


> (studentsSIncome - min(studentsSIncome)) / 
(max(studentsSIncome) - min(studentsSIncome) ) 


可 以 使 用 rescale 这 个 参数 将 数据 缩放 到 不 同 于 [0，1] 的 区 间 中 。 下 面 的 代码 将 students$lncome 缩 放 到 (0, 100) 区 间 : 


> rescale(studentsSIncome, to = c(1, 100)) 


SW A—EETIBRABARY, (RRP EMS SS. (MARS SS RAN REREN KEAR. 
一 次 性 缩放 多 个 变量 


(FBLA FARN: 


rescale.many <- function(dat, column.nos) { 
nms <- names (dat) 
for(col in column.nos) { 
name <- paste(nms[col],".rescaled", sep = "") 
dat [name] <- rescale(dat[,col] ) 


| 


cat (paste("Rescaled ", length(column.nos), 
" variable(s)\n") ) 


dat 


ENI ERRAZ, FeiTAJLAFALA Bas Re eat RAMBO TS. 


> rescale.many(students, c(1,4)) 


1.11 ”对 数据 框 中 的 数据 做 正则 化 或 标准 化 


距离 计算 在 很 多 数据 分 析 技 术 中 占据 重要 地 位 。 我 们 知道 数值 大 的 变 易 影 响 距离 的 计算 。 因 此 你 可 能 想 要 使 用 标准 化 
的 值 (或 2 值 ) 。 


准备 就 绪 
下 载 bostonHousing.csv 数 据 文 件 并 存放 在 R 工 作 目 录 中 。 人 然后 读 入 这 个 数据 : 


> housing <- read.csv("BostonHousing.csv") 


对 于 只 包 合 数值 变量 的 数据 框 ， 可 用 如 下 命令 将 所 有 变量 标准 化 ': 


> housing.z <- scale (housing) 
你 只 能 人 在 全 是 数值 变量 的 数据 框 中 使 用 scale() 轴 数 。 否 则 会 得 到 错误 信息 。 


工作 原理 


scale() 阔 数 对 每 一 个 变量 的 每 一 个 值 计 算 其 标准 化 的 Z 分 值 (忽略 NA 值 ) 。 即 ， 对 每 一 个 值 减 去 其 均值 并 除 以 对 应 变量 的 
INEZ. 


scale) RBA TA izeeycenterfscale, WAJANE (TRUE) 。 下 面 的 表 1-1 展 示 了 这 些 参 数 的 作用 效果 。 


x 1-1 


参 数 
center = TRUE, scale = TRUE 
center = TRUE, scale = FALSE 
center = FALSE, scale = TRUE 
center = FALSE, scale = FALSE 


SAS THB RSAIRAAT, (RAT 


同时 对 多 个 变量 标准 化 


当 你 有 一 个 包含 部 分 数值 型 变量 


准 化 处 理 时 ， 那 么 你 可 以 每 次 处 理 一 


默认 效果 

对 每 一 个 值 减 去 其 对 应 的 均值 

对 每 一 个 值 除 以 其 对 应 的 均 方 根 ， 均 方 根 被 定义 为 sqrt (sum (x^2)/ (n-1) ) 
返回 原始 值 


要 缩放 多 个 变量 。 一 次 只 能 标准 化 一 个 变量 可 能 会 使 得 这 一 过 程 风 长 乏味 。 


和 部 分 非 数 信 型 变量 的 数据 框 ， 或 者 希望 对 一 个 全 是 数值 型 变量 的 数据 框 中 的 几 个 变量 做 标 


MNIE 


变量 ， 这 是 很 麻烦 的 事 ， 或 者 用 如 下 函数 来 处 理 变量 的 一 个 子 集 ; 


scale.many <- function(dat, column.nos) { 


nms <- names (dat) 


for(col in column.nos) { 


name <- paste(nms[col],".z", 


sep = "N ) 


dat [name] <- scale (dat [,col]) 


| 


cat (paste ("Scaled ", 


dat 


length(column.nos), " variable (s)\n")) 


依靠 这 个 为 数 ， 你 可 以 完成 下 面 这 尝 工 作 : 


> housing <- read.csv("BostonHousing.csv") 
> housing <- scale.many(housing, c(1,3,5:7)) 


这 会 为 变量 1、3、5、6 和 7 添加 z 值 ， 这 些 z 值 会 仓 放 人 在 对 应 的 原 列 名 之 后 并 以 原 询 名 加 .z 后 缀 作为 新 的 列 名 : 


> names (housing) 


[1] " CRIM" TI ZN" 
Wa "AGE" "prs" 
[13] "LSTAT" "MEDV" 


[19] "AGE.z" 


1.12 “为 效 值 数据 分 箱 


" INDUS " i CHAS " " NOX 1 1 RM " 
" RAD 1 W TAX " " PTRAT T O " TI B " 
"CRIM: 2” MINDUS- 2€ SNOL. 29 "HM. 2” 


有 时 候 ， 我 们 需要 将 数值 数据 转换 成 分 类 数据 或 因子 。 例 如 ， 朴 素 贝 叶 斯 分 类 万 法 要 求 所 有 的 变量 (无 论 是 自 变 量 还 是 因 变 
量 ) 都 是 分 类 变量 。 在 其 他 情况 下 ， 我 们 也 许 想 要 将 一 种 分 类 万 法 应 用 于 某 个 问题 ， 数 据 中 的 因 变 量 是 数值 型 的 ,但 是 模型 所 要 


ER ZR 


将 本 章 的 代码 文件 中 的 data-conversion.csv 文 件 保存 全 R 工 作 目 录 。 然 后 读 取 数 据 : 


> students <- read.csv("data-conversion.csv") 


要 怎么 做 


Income 是 一 个 数值 变量 ， 你 也 许 想 基于 它 用 装 箱 的 方法 创建 分 类 变量 。 假 设 你 想 要 将 收入 小 于 等 于 $10000 记 为 低 ， 收 入 在 
$10000 和 $31000 之 间 记 为 中 ， 其 余 记 为 高 。 我 们 可 以 这 样 来 做 : 


1) 创建 作为 分 段 点 的 向 量 : 
> b <- c(-Inf, 10000, 31000, Inf) 
2) 创建 不 同 段 的 名 字 : 
> names <- c("Low", "Medium", "High") 
3) 用 分 段 点 向 量 将 原 向 量 分 段 : 
> students$Income.cat <- cut(studentsSIncome, breaks = b, labels = 
names) 


> students 


Age State Gender Height Income Income.cat 


1 23 NJ F 61 5000 Low 
2 L NY M So 1000 Low 
5 36 NJ M 66 3000 Low 
=- 31 VA F 64 4000 Low 
5 58 NY F 70 30000 Medium 
6 29 TX F 63 10000 Low 
7 39 NJ M 67 50000 High 
8 50 VA M 70 55000 High 
9 AS TX F 61 2000 Low 
10 36 VA M 66 20000 Medium 
工作 原理 


cut( 函 数 用 breaks 参 数 定义 的 区 间 来 定义 分 箱 ， 并 用 labels 参 数 中 的 字符 串 为 它们 命名 。 在 我 们 的 例子 中 ， 函 数 把 Income 
小 于 等 于 10000 的 数据 放 入 第 一 个 分 箱 中 ，Income 大 于 10000 且 小 于 31000 的 数据 放 入 第 二 个 分 箱 ，Income 大 于 31000 的 数据 
放 入 第 三 个 分 箱 中 。 换 句 话说， 区 间 的 左 端点 是 不 包括 在 区 间 内 的 ， 而 右 端 点 包括 在 内 。 分 箱 的 个 数 比 breaks 参 数 中 的 元 素 个 
数 少 一 个 。name 参 数 中 的 字符 串 构成 了 分 箱 的 因子 水 平 。 


如 果 我 们 将 分 箱 名 保留 为 空 ， 则 cut0 函 数 使 用 第 二 参数 中 的 数值 来 构建 区 间 名 称 ， 如 下 所 示 : 


> b <- c(-Inf, 10000, 31000, Inf) 
> studentssSIncome.catl <- cut(studentsSIncome, breaks = b) 
> students 


Age State Gender Height Income Income.cat Income.catl 
1 2a NJ F 61 5000 Low (-Inf,1e+04] 
2 abe NY M 35 1000 Low (-Inf,1e+04] 
3 36 NJ M 66 3000 Low (-Inf,1e+04] 
4 31 VA F 64 4000 Low (-Inf,1e+04] 
5 58 NY F 70 30000 Medium (1e+04,3.1e+04] 
6 29 TX F 63 10000 Low (-Inf,1e+04] 
7 39 NJ M 67 50000 High (3.1e+04, Inf] 
8 50 VA M 70 55000 High (3.1e+04, Inf] 
9 23 TX F 61 2000 Low (-Inf,1e+04] 
10 36 VA M 66 20000 Medium (1e+04,3.1¢e+04] 

更 多 细节 


你 也 许 并 不 思想 人 工 指 定 分 段 点 ， 而 是 希望 由 R 自 动 完 成 。 
目 动 创建 特定 个 数 的 区 间 


除了 上 述 人 工 指定 分 段 点 和 区 间 的 方法 ， 我 们 也 可 以 提供 分 箱 的 个 数 ， 比 如 说 n 个 ， 然 后 让 cut0 函 数 来 自动 处 理 剩 下 的 工 
作 。 在 这 个 例子 中 ，cut(0 函 数 创 建 了 n 个 近似 等 宽 的 区 间 ， 如 下 : 


> studentsSIncome.cat2 <- cut(studentsSIncome, 
breaks = 4, labels = c("Levell", "Level2", 
"Level3", "Level4") ) 


1.13 ”为 分 类 区 量 创建 号 变量 


有 些 情 况 下 我 们 需要 将 一 些 只 能 处 理 数值 变量 的 分 析 方 法 (比如 K 最 近邻 、 线 性 回归 ) 用 在 分 类 变量 上 ， 这 时 我 们 需要 创建 


准备 就 绪 
将 文件 data-conversion.csv 和 存放 于 R 工 作 目 录 中 ， 安 装 dummies 包 。 然 后 读 取 数据 : 


> install.packages ("dummies") 
> library (dummies) 
> students <- read.csv("data-conversion.csv") 


为 数据 框 中 的 所 有 因子 创建 哑 变 量 


> students.new <- dummy.data.frame(students, sep = ".") 


> names (students.new) 


[1] "Age" "State.NJ" "State.NY" "State.TX" "State.VA" 
[6] "Gender.F" "Gender.M" "Height" "Income" 


现在 students.new 数 据 框 包含 了 所 有 的 原始 变量 和 新 增加 的 哑 变 量 。dummy.data.frame() 国 数 为 State 因 子 的 所 有 4 个 水 平 
和 Gender 因 子 的 所 有 两 个 水 平 创建 了 哑 变 量 。 然 而 ， 当 应 用 机 器 学 习 技 术 时 ， 我 们 常常 会 忽略 State 哑 变量 中 的 一 个 和 Gender 
哑 变 量 中 的 一 个 。 


我 们 可 以 使 用 可 选 的 参数 all=FALSE 来 指定 生成 的 数据 框 只 包含 创建 出 来 的 哑 变 量 而 不 包括 原始 变量 。 


工作 原理 


dummy.data.frame() 函 数 为 原 数 据 框 中 的 所 有 因子 创建 了 哑 变 量 。 这 个 函数 内 部 使 用 了 dummy0 函 数 ， 它 可 以 基于 一 个 因 
子 变量 创建 呈 变 量 。dummy() 遂 数 为 因子 的 每 一 个 水 平 创建 一 个 新 变量 。 它 用 因子 变量 名 后 接 因 子 水 平 名 来 为 哑 变 量 命名 。 我 
们 可 以 使 用 sep 参 数 来 指定 因子 变量 名 与 因子 水 平 名 之 间 的 分 隔 符 一 一 默认 值 是 空格 符 : 


> dummy (studentss$State, sep = ".") 


State.NJ State.NY State.TX State.VA 
[1,] 
[2,] 
Lael 
[4,] 
ES yl 
[6,] 
[7,] 
[8,] 
L 
Bley 


O 0O0OrFCQCOOrRO 
O O OGOOGO H O 
BS iB 

PP OPOOOPoOoOoOD 


dt 


更 多 细 
有 些 情 况 下 ， 数 据 框 有 多 个 因子 ， 而 你 只 计划 使 用 这 些 因 子 的 一 个 子 集 。 这 时 可 以 只 在 这 些 选 定 的 子 集 上 创建 哑 变 量 
选择 基于 哪些 变量 来 创建 哑 变 量 


为 了 创建 仅 仪 关于 一 个 或 几 个 变量 的 哑 变 量 。 我 们 可 以 使 用 names 参 数 来 指定 我 们 希望 基于 哪些 变量 来 创建 呈 变 量 


> students.newl <- dummy.data.frame(students, 
names = c("State","Gender") , sep = ".") 


Boe ”那里 面 有 什么 一 一 探索 性 数据 分 析 


在 应 用 一 些 更 高 级 的 分 析 手 段 和 机 器 学 习 技 术 之 前 ,分 析 师 们 需要 面临 的 挑战 是 敦 悉 他 们 手头 的 大 型 数据 集 
越 依赖 于 可 视 化 技术 来 梳理 隐 合 的 模式 。 本 章 提供 深入 探索 大 型 数据 集 的 必要 万 法 。 


Bee ”那里 面 有 什么 一 一 探索 性 数据 分 析 


在 应 用 一 些 更 高 级 的 分 析 手 段 和 机 器 学 习 技 术 之 前 ,分 析 师 们 需要 面临 的 挑战 是 熟悉 他 们 手头 的 大 型 数据 
越 依赖 于 可 视 化 技术 来 梳理 隐 合 的 模式 。 本 章 提供 深入 探索 大 型 数据 集 的 必要 万 法 。 


2.2 ”创建 标准 化 数据 概 哎 


这 里 用 Summary 函 数 获 取 数 据 概 览 。 


准备 束 绪 
如 果 你 还 没有 下 载 本 草 的 数据 文件 ， 现 在 下 载 并 将 auto-mpg.csv 文 件 保存 在 你 的 R 工 作 目 录 中 。 


要 起 么 做 
从 auto-mpg.csv 中 读 取 数 据 ， 其 包含 抬头 行 并 且 列 间 用 默认 的 "作为 分 隅 符 。 


1) 从 auto-mpg.csv 中 读 取 数据 并 将 cylinders 变 量 转换 成 因子 : 


> auto <- read.csv("auto-mpg.csv", header = TRUE, 
stringsAsFactors = FALSE) 
> # Convert cylinders to factor 
> autoScylinders <- factor(autoScylinders, 
= (3, 4,568,869 , 
"Beyli", “Goyl*, How yy) 


levels = 


labels = c("3cyl", "4cyl", 


2) 获取 统计 摘要 信息 : 


集 。 分 析 师 们 越 来 


集 。 分 析 师 们 越 来 


summary (auto) 


No mpg cylinders displacement 
Min. : Al Min. : 9.00 3cyl: 4 Min. : 66.0 
lst Qu.:100.2 THE Gas H759 4cyl:204 ISE ‘Ou. 108-2 
Median :199.5 Median :23.00 DOV: 3 Median :148.5 
Mean T995 Mean | 6cyl: 84 Mean 2193.4 
20: On... 1295-8 3rd Qü- 229..00 BGyi2103 39. On. 5262; 0 
Max. 7398.0 Max. :46.60 Max. 2455... 0 
horsepower weight acceleration model year 
Min. 46.0 Min. men B 可 Min. S B00 Min. 270.00 
ist Qu.: T6-0 lst Qu.:2224 PSE (i Hise Lab On.= 73.00 
Median 92.0 Median :2804 Median :15.50 Median :76.00 
Mean :104.1 Mean 22970 Mean si Rote: # Mean 276.01 
sra “On: 125-0 3rd Qu.:3608 ard! Oo.27 708 3rd Qu.:79.00 
Max. 2230.0 Max. :5140 Max. :24.80 Max. 82.00 
car name 
Length:398 
Class :character 
Mode :character 
丁 作 原理 


(最 小 值 、1/4 分 位 数 、 中 位 数 、 均 值 、3/4 分 位 数 、 最 大 值 ) 的 摘 
尼 会 给 出 所 有 可 用 值 。 


summary(0 国 数 会 对 数值 变量 给 出 一 个 包括 “6 个 数 " 
要 。 对 于 因子 (或 分 类 变量 ) 这 个 国 数 会 给 出 每 个 水 平 的 计数 ; 对 于 字符 变量 ， 


R 提 供 了 很 多 函数 来 快速 查看 数据 ， 本 书 讨 论 其 中 一 毕 冰 数 。 


1. 用 str0 函 数 吾 看 数据 杠 


str(0) 六 数 可 用 于 简明 地 查看 数据 框 。 事 实 上 ， 我 们 单 用 它 来 查看 任意 R 对 象 的 内 在 结构 。 以 下 命令 和 结果 显示 str( 阔 数 给 
了 我 们 面前 的 对 象 的 结构 信息 ， 它 同样 告 和 类 了 我 们 其 每 一 个 组 成 部 分 的 类 型 和 抽取 出 的 部 分 值 。 它 对 于 获取 数据 框 的 一 个 总 体 概 
要 是 非常 有 用 的 。 


> str(auto) 


'data.frame': 398 obs. of 9 variables: 
S No int 3g 2345 6 7 8 9 10 
$ mpg num 28 19 36 28 21 23 15.5 32.9 16 13 


$ cylinders Factor w/ 5 levels “Scyl" "4cyl"; ss» 21.224 


25224 5 


$ displacement: num 140 70 107 97 199 115 304 119 250 318 


$ horsepower : int 90 97 75 92 90 95 120 100 105 150 ... 
$ weight : int 2264 2330 2205 2288 2648 2694 3962 2615 
386897 3755 „aa 


S acceleration: num 15.5 13.5 14.5 17 15 15 13.9 14.8 18.5 14 


$ model year : int 71 72 82 72 70 75 76 81 75 76 ... 


$ car name : chr "chevrolet vega 2300" "mazda rx2 coupe" 
"honda accord" "datsun 510 (sw)" 


2. 计 算 单 一 变量 的 摘要 


当 因 子 变量 的 摘要 与 数值 型 变量 的 摘要 混在 一 起 时 (就 像 前 面 的 例子 ) ，summary(0 卫 数 最 多 给 出 6 个 水 平 的 计数 ， 剩 余部 
分 被 归 到 Other 中 。 


也 可 以 对 单一 变量 调用 summary0 函 数 。 在 这 个 例子 中 数值 变量 的 摘要 与 之 前 的 一 样 ， 而 对 于 因子 变量 ， 你 会 得 到 更 多 水 平 
的 计数 信息 。 


> summary (autoScylinders) 
> summary (autosmpg) 


3. RISE 


(SE FARREXMmean()Flsd() KIASE, UA: 


> mean (autoSmpg) 
> sd(autosmpg) 


2.3 ”抽取 数据 集 的 子 集 


这 里 讨论 两 种 抽取 子 集 的 万 法 。 第 一 种 方法 使 用 行 和 列 的 泰 引 /名 称 ， 另 一 种 万 法 是 调用 subset() 辫 数 。 
准备 束 绪 
下 载 本 章 的 数据 文件 并 将 auto-mpg.csv 存 放 于 你 的 R 工 作 目 录 中 。 用 以 下 命令 读 入 数据 : 


> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


同样 的 抽取 原理 可 适用 于 向 量 、 列 表 、 数 组 、 算 孟 和 数据 框 。 我 们 用 数据 框 来 演示 。 


以 下 步骤 会 从 一 个 数据 集中 抽取 出 一 个 子 集 : 


1) 用 位 置 索引 。 人 得 到 前 三 辆 车 的 model year 和 car_name 数 据 : 


> auto[1:3, 8:9] 
> auto[1:3, c(8,9)] 


2) 用 变量 名 论 引 。 得 到 前 三 辆 车 的 model_year 和 car_name 数 据 : 
> auto[1:3,c ("model year", "car name") ] 


3) 用 以 下 代码 得 到 拥有 最 局 或 最 低 油 耗 的 后 的 所 有 细节 信息 : 


> auto [auto$mpg == max(auto$mpg) | auto$mpg == 
min(autosmpg) , ] 


4) 得 到 所 有 油耗 大 于 30 且 气 所 数 为 6 的 车 的 油耗 和 车 名 信息 : 
> auto[autoSmpg>30 & auto$cylinders==6, c("car name", "mpg") ] 
5) 通过 变量 名 部 分 匹配 得 到 所 有 油耗 大 于 30 且 气 抽 数 为 6 的 车 的 油耗 和 和 车 名 信息 : 
> auto[autosmpg >30 & auto$Scyl==6, c("car name", "mpg") ] 


6) FAsubsetQRaS2UAT AHA F308 Sale on SA Ea: 


> subset (auto, mpg > 30 & cylinders == 6, 
select=c ("car name", "mpg”") ) 


工作 原理 


auto[1: 3, 8: 9] 中 第 一 部 分 的 索引 标记 了 行 ， 第 二 部 分 的 系 引 标记 列 或 变量 。 除 了 用 列 所 在 的 位 置 之 外 ， 也 可 以 用 变量 
名 来 系 引 。 当 使 用 变量 名 时 ， 用 引号 ”将 名 称 括 起 来 。 


当 所 需 的 行 和 人 列 并 不 连续 时 ， 使 用 向 量 形式 auto[c (1, 3), c (3，5，7) ] 来 指明 所 需 的 行 和 列 。 
Qaz 用 列 名 而 非 列 的 位 置 ， 因 为 数据 文件 中 列 的 位 置 可 能 会 变 。 
R 使 用 逻辑 运算 符 & (与 ) ，| (或 ) ，! (aE) ， 以 及 == (相等 ) 。 


如 果 省 略 了 select 参 数 ， 子 集 函 数 subset() 会 返回 所 有 的 变量 ( 列 ) 。 因 此 subset (auto, mpg>30&cylinders==6) 会 抽 
取出 所 有 符合 mpg>30 和 cylinders= 6 的 样本 。 


然而 ， 当 使 用 逻辑 值 索 引 的 方法 来 选择 数据 框 中 的 行 时 ， 切 记 需 要 在 逻辑 表达 式 后 面 指明 需要 抽取 的 变量 或 直接 用 逗号 表明 
需要 全 体 变 量 。 
> # incorrect 


> auto[autosmpg > 30] 


Error in ~[.data.frame (auto, autoSmpg > 30) 
undefined columns selected 


> # correct 
> auto[autoSmpg > 30, | 


QES 如果 选择 了 单个 变量 ， 则 子 集运 算 返 回 一 个 向 量 而 非 数据 框 。 


我 们 通 单 用 名 称 或 位 置 索引 来 抽取 数据 。 因 此 这 里 给 出 一 毕 用 率 引 抽取 数据 的 额外 细节 。subset(0 函 数 主 要 用 在 需要 对 一 组 
数组 、 列 表 或 向 量 元 素 重 复 进 行 子 集 操作 的 情况 。 


1. 排 除 菏 些 列 


在 不 需要 的 变量 位 置 用 减 号 可 将 它们 排除 在 子 集 外 。 同 时 不 能 在 列表 将 正泰 引 和 人 负 索 引 渴 合 使 用 。 以 下 两 种 做 法 都 是 正确 
的 。 


> auto[,c(-1,-9)] 
> auto[,-c(1,9)] 


然而 ， 这 个 子 集 操作 不 适用 于 基于 变量 名 称 索 引 的 情况 。 例 如 ， 我 们 不 能 用 -c ("No", "car_name") ， 而 可 以 用 %in% 
和 ! (RR) 来 排除 变量 。 


> auto[, !names(auto) tint c("No", "car name") ] 
2. 基 于 多 个 值 的 选择 


选择 mpg=15 或 者 mpg=20 的 所 有 车 : 


> autolautosmpg Yin% c(15,20),c("car name", "mpg") ] 


3. FS 3S le Kite 
可 以 用 布尔 向 量 来 措 定 所 需要 的 样本 (17) 和 变量 ( 列 ) 。 
在 以 下 例子 中 ，R 返 回 第 一 和 第 二 个 样本 ， 对 于 每 一 个 样本 ， 我 们 只 得 到 第 三 个 变量 。R 返 回 对 应 真 值 的 元 素 : 
> auto[1:2,c (FALSE, FALSE, TRUE) ] 
可 以 对 行 运 用 同样 的 万 法 。 


如 果 长 硫 不一致， 则 R 会 将 布尔 同 量 循环 补 齐 。 然 而 ， 始 终 保持 长 大 一 致 是 一 个 好 习惯 。 


当 有 分 类 变量 时 ， 我 们 弟 会 希望 依照 不 同 水 平分 组 ， 并 在 每 一 组 上 进行 分 析 来 揭示 这 些 组 之 间 的 显 闭 异同 。 
split 阔 数 会 基于 因子 或 同 量 将 数据 分 阳 开 。unsplit0 与 split 作 用 相反 。 
FE FS 


下 载 本 章 的 数据 文件 auto-mpg.csv 并 将 其 保存 到 R 的 工作 目录 中 。 用 read.csv 读 取 数 据 并 保存 在 auto 变 量 中 : 


> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


用 以 下 命令 对 气缸 数 分 组 : 
> carslist <- split(auto, autoScylinders) 
工作 原理 


split (auto, auto$cylinders) 函数 返回 一 个 由 数据 框 所 组 成 的 列表 ， 其 中 每 一 个 数据 框 对 应 cylinders 处 于 一 个 特定 水 平 
的 那些 样本 。 可 用 记号 [来 引用 此 列表 中 的 数据 框 。 这 里 carslist[1] 是 一 个 长 度 为 1 的 列表 ， 其 包含 了 第 一 个 数据 框 ， 这 个 数据 框 
对 应 三 缸 车 。 而 carslist[[1]] 则 是 三 缸 车 相关 的 数据 框 。 


> str(carslist [1] ) 


bist Gr T 

S 3:'data.frame': 4 obs. of 9 variables: 
om No >: int [1:4] 2 199 251 365 
..S mpg : tm, Pies) 19 28 23.7 21.45 
..$ cylinders + int [1:4] 333 3 
..$ displacement: num [1:4] 70 70 70 80 
..$ horsepower : int [1:4] 97 90 100 110 
..$ weight : int [1:4] 2330 2124 2420 2720 
..-S acceleration: num [1:4] 13.5 13.5 12.5 13.5 
--§ model year : int [1:4] 72 73 80 77 
..$ Car name : chr [1:4] "mazda rx2 coupe" "maxda rx3" 

"mazda rx-7 gs" "mazda rx-4" 


> names (carslist[[1]]) 
[Lh WHO "mpg" "cylinders" "displacement" 


[5] "horsepower" "weight" "acceleration" "model year" 
[9] "car name" 


2.5 ”创建 随机 数据 分 块 


分 析 师 们 需要 对 他 们 的 机 器 学 习 模 型 的 质量 做 出 无 偏 估计 。 为 了 达到 这 个 目的 ， 他 们 将 已 有 的 数据 分 为 两 部 分 。 其 中 一 部 分 
用 于 构建 模型 ,保留 另 一 部 分 不 用 。 人 在 建 模 完成 之 后 ， 他 们 在 保留 的 数据 上 估计 模型 的 性 能 。 本 市 演示 如 何 划分 数据 。 根 据 目 标 
变量 是 数值 型 还 是 分 类 型 会 采取 不 同 的 处 理 手 段 。 本 市 同时 也 涵 芋 了 划分 为 两 块 或 者 多 块 的 处 理 过 程 。 
ER MEA 


如 果 你 还 没有 下 载 本章 的 数据 文件 gostonHousing.csv 和 boston-housing-classification.csSv， 现 在 下 载 并 将 它们 存放 在 你 
的 R 工 作 目 录 中 。 同 时 需要 用 以 下 命令 来 安 洲 caret 包 : 


> install.packages ("caret") 
> library (caret) 
> bh <- read.csv("BostonHousing.csv") 


要 怎么 做 


你 也 许 想 要 建立 一 个 使 用 某 些 机 器 学 习 手 段 的 模型 (比如 线性 回归 或 K 最 近邻 ) 来 预测 波士顿 近郊 房价 的 中 位 数 。 数 据 来 源 


是 BostonHousing.csv 文 件 ，MEDV 变 量 是 目标 变量 。 


范例 1 一 一 数值 型 目标 变量 和 二 分 块 


用 如 下 代码 创建 一 个 训练 分 块 ， 其 包含 80% 的 样本 ， 并 创建 一 个 验证 分 块 ， 其 包含 剩余 的 样本 : 
> trg.idx <- createDataPartition(bh$MEDV, p = 0.8, list = FALSE) 


> trg.part w= bh[trg.idx, J 
> val.part <- bh[-trg.idx, ] 


运行 乙 后 ，trg.part 和 val.part 变 量 分 别 包含 了 训练 分 块 和 验证 分 块 。 


范例 2 一 一 数值 型 目标 变量 和 三 分 块 


有 些 机 器 学 习 技 术 要 求 三 个 分 块 ， 因 为 它们 使 用 其 中 的 两 个 分 块 来 建 模 。 因 此 ， 第 三 个 分 块 (测试 分 块 ) 包含 了 评估 数据 模 
型 所 需 的 保留 数据 。 


假设 我 们 想 要 得 到 一 个 包含 了 70% 样 本 的 训练 分 块 ， 并 要 将 剩余 部 分 对 等 地 分 成 验证 分 块 和 测试 分 块 。 用 以 下 代码 来 实现 : 


trg.idx <- createDataPartition(bh$MEDV, p = 0.7, list = FALSE) 
trg.part <- bh[trg.idx, ] 

temp <- bh[-trg.idx, | 

val.idx <- createDataPartition(tempSMEDV, p = 0.5, list = FALSE) 
val .part <- templ[val.idx, | 


Yo WY 


test.part <- temp[-val.idx, | 


范例 3 一 一 分 类 型 目标 变量 和 二 分 块 


除了 创建 预测 数据 变量 (比如 MEDV) 的 模型 之 外 ， 你 可 能 也 需要 创建 用 于 分 类 的 分 块 。boston-housing- 
classification.csv 文 件 包 含 一 个 MEDV.CAT 变 量 ， 它 可 将 房价 中 位 数 分 为 分 类 算法 所 需 的 高 和 低 两 类 。 


用 以 下 命令 做 一 个 70-30 的 分 割 : 


bh2 <- read.csv("boston-housing-classification.csv") 


V 


> trg.idx <- createDataPartition(bh2SMEDV CAT, p=0.7, list = 
FALSE) 

> trg.part <- bh2[trg.idx, ] 

> val.part <- bh2[-trg.idx, ] 


范例 4 一 一 分 类 型 目标 变量 和 三 分 块 


为 了 得 到 一 个 70-15-15 的 分 割 〈 训 练 、 验 证 、 测 试 ) ， 请 使 用 如 下 命令 : 


> bh3 <- read.csv("boston-housing-classification.csv") 

> trg.idx <- createDataPartition(bh3SMEDV CAT, p=0.7, list = 
FALSE) 7 

> trg.part <- bh3([trg.idx, | 

> temp <- bh3[-trg.idx, ] 

> val.idx <- createDataPartition(tempSMEDV CAT, p=0.5,list = 
FALSE) 7 

> val.part <- temp[val.idx, ] 

> test.part <- temp[-val.idx, | 


工作 原理 


createDataPartition0 消 数 从 作为 其 第 一 参数 的 数组 中 随机 选择 行 号 。 与 其 从 整个 数据 框 中 随机 选择 ， 不 如 更 加 智能 的 抽 
取 。 


如 果 第 一 参数 是 一 个 数值 癌 量 ， 则 createDataPartition0 对 各 个 百 分 位 数 分 组 应 用 随机 抽取 以 保证 样本 行 能 有 效 体现 目标 变 
量 的 整个 值 域 。 这 种 做 法 可 以 避免 友 生 如 下 情况 : 完全 随机 抽取 可 能 导致 样本 无 法 完整 地 体现 出 目标 变量 值 域 的 每 一 部 分 。 默 认 
情况 下 ， 这 个 函数 使 用 ?个 分 组 ， 然 而 我 们 可 以 用 可 选 的 groups 参 数 来 控制 尼 。 


当 提 供 了 因子 向 量 时 ， 此 沙 数 会 对 样本 中 因子 的 每 一 个 值 做 随机 抽取 。 因 此 可 以 保证 训练 分 块 能 够 很 好 地 体现 每 一 个 因子 的 
AVE. 


list 参 数控 制 输出 结果 是 列表 还 是 向 量 。 


为 了 避免 原始 数据 框 和 两 个 数据 分 块 中 出 现 重复 数据 ， 可 以 用 生成 的 索引 ， 对 于 训练 分 块 ， 称 为 bh[trg.idx，]， 对 于 验证 分 
块 ， 称 为 bh[-trg.idx，]。 


当 你 有 一 个 很 大 的 数据 文件 时 ， 重 复 抽取 子 集 可 能 会 比较 低 效 ， 这 时 你 可 以 预先 将 数据 复制 进 分 块 中 。 


本 万 过 论 一 些 天 于 数据 分 块 的 额外 信息 。 


1. 用 一 个 方便 的 函数 来 分 块 


与 其 每 次 输入 这 些 细节 步骤 ， 不 如 用 下 述 函 数 来 简化 沅 程 : 


rda.cb.partition2 <- function(ds, target.index, prob) { 


library (caret) 

train.idx <- createDataPartition(y=ds[,target.index], 
p = prob, list = FALSE) 

list(train = ds[train.idx, ], val = ds[-train.idx, ]) 


) 


rda.cb.partition3 <- function (ds, 
target.index, prob.train, prob.val) { 
library (caret) 
train.idx <- createDataPartition(y=ds[,target.index], 
p = prob. Erain, list = FALSE) 
train <- ds[train.idx, ] 
temp <- ds[-train.idx, ] 
val.idx <- createDataPartition(y=temp[,target.index], 
p = prob.val/(l-prob.train), list = FALSE) 
List ta = daeltirain.ids. |; 
val = temp[val.idx, ], test = temp[-val.idx, ]) 


SEF CBA TE a, AAN FERIT REEGEL (80%, 20%) : 
datl <- rda.cb.partition2(bh, 14, 0.8) 

可 用 下 面 这 条 语句 来 创建 三 分 块 (70%, 15%, 15%) : 
dat2 <- rda.cb.partition3(bh, 14, 0.7, 0.15) 


rda.cb.partition2() 函 数 和 rda.cb.partition3(0 国 数 分 别 返 回 一 个 包含 两 个 和 三 个 组 件 的 列表 。 可 以 通过 dat1$train 和 
dat1$val 来 引用 dat1 中 的 训练 分 块 和 验证 分 块 。 这 同样 适用 于 dat2， 为 了 得 到 dat2 中 的 测试 分 块 ， 可 以 使 用 dat2$test。 


2. 从 一 组 数 中 抽样 


要 从 bh 数据 框 中 无 放 回 的 随机 抽取 50 个 样本 ， 可 以 使 用 下 列 命令 : 


sam.idx <- sample(1l:nrow(bh), 50, replace = FALSE) 


26 DEEDE, PRE, Bee Sveti 


在 开始 进行 任何 数值 分 析 方 法 之 前 ， 你 也 许 想 通过 几 幅 快速 的 绘图 来 认识 数据 。 尽 管 R 基 础 系统 支持 强大 的 绘图 功能 ， 但 是 
我 们 通常 选择 其 他 的 绘图 系统 (如 lattice 和 ggplot) 来 得 到 更 高 级 的 图 形 。 因 此 我 们 只 会 涵盖 基础 绘图 一 些 最 简单 的 形式 。 
EMEA 


如 果 你 还 没有 下 载 本 草 的 数据 文件 ， 现 在 下 载 并 将 它们 存放 在 你 的 R 工 作 目 录 中 : 


> auto <- read.csv("auto-mpg.csv") 
> autoScylinders <- factor(auto$Scylinders, levels = c(3,4,5,6,8), 


Labels SS CGA". Taen", "Sel". TOCUL", “Begin ) 3 
> attach (auto) 


ATWICBAA. WAE, SAS. 
1. 直 万 图 
建立 天 于 加 速度 的 直方 图 : 
> hist (acceleration) 


R 会 目 动 决定 所 生成 的 图 形 的 多 个 属性 (COMA. ARE, Singhs. Bein, RNAS) 。 图 2-1 显 示 
了 上 述 命令 的 输出 。 


Histogram of acceleration 
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可 以 目 定 义 每 一 个 属性 。 下 述 代码 展示 了 这 些 选 项 : 


> hist(acceleration, col="blue", xlab = "acceleration", 
main = "Histogram of acceleration", breaks = 15) 


加 速度 的 直方 图 可 参见 图 2-2。 


Histogram of acceleration 


© 
© 
© 
Lo 
>» O 
© 
一 十 
Uy 
— O) 
go mf 
山 
LL o 
CNI 
O 
= 
Ce 
15 
acceleration 
图 2-2 
线 医 


用 下 列 命令 创建 一 个 天 于 油耗 的 箱 线 图 ， 如 图 2-3 所 示 。 


> boxplot (mpg, xlab = "Miles per gallon") 


Miles per gallon 


图 2-3 
为 了 得 到 整个 数据 集中 每 一 个 子 集 的 箱 线 图 (如 图 2-4 所 示 ) ， 可 用 下 列 命令 : 


> boxplot (mpg ~ model year, xlab = "Miles per gallon") 


Miles per gallon 


图 2-4 
创建 油耗 关于 气缸 数 的 箱 线 图 (如 图 2-5 所 示 ) 。 


> boxplot (mpg ~ cylinders) 


3. 散 点 图 


创建 油耗 关于 马力 [1 的 散 点 图 (如 图 2-6 所 示 ) 。 


> plot(mpg ~ horsepower) 


horsepower 


4. ERAAI F E 


创建 一 组 变量 两 两 之 间 的 散 点 图 (如 图 2-7 所 示 ) 。 


> pairs (~mpg+displacement+horsepower+weight) 
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工作 原理 


下 面 将 描述 之 表 的 代码 是 如 何 工 作 的 。 


1. 直 万 图 


默认 情况 下 hist0 遂 数 会 基于 数据 来 自动 决定 要 显示 几 个 条 形 。 这 可 以 由 breaks 参 数 来 控制 |。 


与 其 使 用 纯色 ， 不 如 通过 下 述 命令 使 用 一 组 配色 (如 图 2-8 所 示 ) 。 


> hist(mpg, col = rainbow(12) ) 


Histogram of mpg 
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可 以 给 定 一 个 简单 的 向 量 或 者 一 个 公式 (比如 前 两 个 例子 中 的 auto$mpg~auto$cylinders) 作为 boxplot(0 的 第 一 个 参数 。 
在 后 者 中 ， 这 会 为 右边 变量 的 每 一 个 不 同 的 水 平 创建 箱 线 图 。 
更 多 细节 


可 以 添加 绘图 层 并 为 指定 点 添加 不 同 的 颜色 。 本 节 展 示 一 些 有 用 的 选项 。 


1. 在 直方 图 上 添加 一 层 密度 图 

直方 图 对 使 用 的 条 形 个 数 非常 敏感 。 核 密度 图 能 够 给 出 关于 分 布 的 更 光滑 、 更 准确 的 图 像 。 通 常 使 用 density() 函 数 在 直方 
上 添加 一 层 密度 图 。 

单独 调用 density(0 时 ， 这 个 遂 数 只 会 生成 密度 图 。 为 了 将 其 添加 至 直方 图 上 ， 用 lines0 函 数 ， 它 不 会 抹 去 当前 图 形 ， 而 是 在 
已 有 图 形 的 基础 上 进行 添加 。 由 于 密度 图 绘制 的 是 相对 频率 ( 约 等 于 概率 密度 函数 ) ， 因 此 需要 确保 直方 图 也 是 按照 相对 频率 来 
绘制 的 。 参 数 prob=TRUE 可 以 做 到 这 一 点 (如 图 2-9 所 示 ) 。 


hist (mpg, prob=TRUE) 
lines (density (mpg) ) 


Histogram of mpg 
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2. 在 散 操 图 上 添加 回归 线 


下 述 代 码 首 先生 成 了 散 点 图 ， 然 后 用 Im 建 立 回归 模型 ， 用 abline() 在 已 有 的 散 点 图 上 添加 回归 线 (如 图 2-10 所 示 ) : 


> plot (mpg ~ horsepower) 
> reg <- lm(mpg ~ horsepower) 
> abline (reg) 


horsepower 


图 2-10 
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和 horsepower 的 顺序 不 同 ， 这 是 因为 在 plot 中 ， 要 求 系 统 将 油耗 绘制 成 马力 的 为 数 ， 而 在 points 了 为 数 中 ， 只 提供 了 一 组 需要 绘 
BIAS (x, y) 坐标 点 : 


> # first generate the empty plot 

> # to get the axes for the whole dat 

> plot (mpg ~ horsepower, type = "n") 

> # Then plot the points in different colors 

> with(subset (auto, cylinders == "8cyl"), 
points (horsepower, mpg, col = "blue") ) 

> with(subset (auto, cylinders == "6cyl"), 
points (horsepower, mpg, col = "red")) 

> with(subset (auto, cylinders == "5cyl"), 
points (horsepower, mpg, col = "yellow") ) 

> with(subset (auto, cylinders == "4cyl"), 
points (horsepower, mpg, col = "green") ) 

> with(subset (auto, cylinders == "3cyl"), 


points (horsepower, mpg) ) 


上 述 命令 生成 如 图 2-11 所 示 的 输出 。 


horsepower 


图 2-11 
[1] 145 =735W. 


2.7 ”在 网 格 窗口 上 创建 多 个 图 像 


我 们 常常 想 看 并 排 的 图 像 以 便于 比较 。 本 节 展 示 了 如 何 达 到 这 一 目的 。 
ERS La 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 下 载 并 确保 将 它们 保存 到 你 的 R 工 作 目 录 中 。 一 旦 你 完成 了 这 些 ， 运 行 下 列 命令 : 
> auto <- read.csv("auto-mpg.csv") 
> cylinders <- factor(cylinders, 
levels = c(3,4,5,6,8), 


labela = ici "sevi"t,; “devin, "Seyi", ®*oeyl*, *sevl™) } 
> attach (auto) 


(Reith auto-mpg.csvaiie PEAR AE (如 图 2-12 所 示 ) 。 运 行 如 下 命令 : 


> # first get old graphical parameter settings 
> olta par = par () 
> # create a grid of one row and two columns 
> par(mErow = c(1,2)) 
> with(auto, { 
plot (mpg ~ weight, main = "Weight vs. mpg") 
plot (mpg ~ acceleration, main = "Acceleration vs. mpg") 


| 
) 
> # reset par back to old value so that subsequent 
> # graphic operations are unaffected by our settings 
> par (old.par) 


Weight vs. mpg Acceleration vs. mpg 


1500 2500 3500 4500 


weight acceleration 


图 2-12 


工作 原理 


par (mfrow=c (1, 2) ) 水 数 创 建 了 一 个 一 行 两 列 的 网 格 。 接 下 来 plot() 遂 数 将 图 表 按 行 填充 到 网 格 中 去 。 另 外 ， 也 可 以 
用 参数 par (mfcol=http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15621/OEBPS/Text/...) 来 指定 网 格 。 此 时 ， 按 照 同样 的 方法 (参考 
mfrow) 创建 风格， 但 网 格 单元 是 按 列 填充 的 。 


图 形 参数 


除了 为 图 形 建立 网 格 之 外 ， 也 可 以 用 par0 遂 数据 定 多 种 图 形 参 数 来 控制 绘图 的 方方面面 。 如 果 你 有 一 些 特定 的 要 求 ， 可 以 
查看 对 应 的 文档 。 


2.8 选择 图 形 设 备 


R 可 将 输出 上 友 送 到 不 同 的 绘图 设备 中 并 以 不 同 格式 展示 图 像 。 默 认 情 况 下 ，R 会 输出 到 屏幕 。 然 而 ， 也 可 以 将 图 像 保 存 为 以 
下 格式 ， 如 : PostScript, PDF, PNG, JPEG, Windows metafile, Windows BMP 等 。 


ER ZA 


如 果 你 还 没有 下 载 本章 对 应 的 数据 文件 ， 现 在 下 载 并 确保 将 auto-mpg.csv 这 个 文件 存放 于 你 的 R 工 作 目录 中 。 然 后 运行 如 
下 代码 : 


auto <- read.csv("auto-mpg.csv") 


V 


V 


cylinders <- factor(cylinders, levels = c(3,4,5,6,8), 
fapeta = G("saegi* “acy”, “Sec”; "Sick". “Bori*)9 
> attach(auto) 


将 图 像 输出 到 计算 机 屏幕 是 不 需要 做 任何 特殊 操作 的 。 若 要 输出 到 其 他 设备 ， 需 要 首先 打开 这 个 设备 ， 将 图 像 友 送 给 它 ， 然 
后 关闭 设备 来 关闭 对 应 文件 。 


用 以 下 命令 来 创建 一 个 PostScript 文 件 : 


> postscript (file = "auto-scatter.ps") 
> boxplot (mpg) 
> dev.off () 


> pdf (file = "auto-scatter.pdf") 


> boxplot (mpg) 
> dev.off () 


工作 原理 


调用 合适 的 绘图 设备 函数 (比如 postscript0 和 pdf0) 会 打开 用 于 输出 的 文件 。 绘 图 操作 会 将 图 像 写 入 设备 (文件 ) ， 然 后 
dev.off( 函 数 会 关闭 这 个 设备 (MA) 。 


2.9 用 lattice 包 绘 匿 


lattice 包 可 以 创建 用 于 捕捉 数据 中 多 元 关系 的 网 格 图 。 对 于 观察 一 个 数据 集中 各 个 变量 之 间 的 复杂 关系 来 说 ，lattice 图 是 非 
党 有 用 的 。 例 如 ， 我 们 也 许 想 知 道 在 z 的 不 同 水 平 上 ，y 是 如 何 随 着 x 的 改变 而 改变 的 。 通 过 lattice 包 ， 可 以 绘制 直方 图 、 箱 线 
图 、 扣 图 等 。 绘 图 和 注释 均 可 在 一 行 命令 中 完成 。 

FEES WL 
下 载 本 章 的 数据 文件 并 将 auto-mpg.csv 存 放 于 你 的 R 工 作 目 录 中 。 用 read.csv 函 数 读 取 文 件 并 保存 到 auto 区 量 中 。 将 
cylinders 转 换 成 因子 变量 : 
> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 
> cyl.factor <- factor (auto$cylinders, labels=c("3cyl","4cyl", 
"Sov " : sorry] " E "8cyl " ) ) 
要 怎么 做 
用 以 下 步骤 来 创建 基于 lattice 包 的 图 像 
1) 载 入 lattice 包 : 


> library (lattice) 


2) 田 一 个 箱 线 图 : 


> bwplot (~auto$mpg|cyl.factor, main="MPG by Number of 
Cylinders",xlab="Miles per Gallon") 


3) 男 一 个 散 点 图 : 


> xyplot (mpg~weight |cyl.factor, data=auto, 
main="Weight Vs MPG by Number of Cylinders", 
ylab="Miles per Gallon", xlab="Car Weight") 


工作 原理 
lattice 绘 图 命令 由 以 下 四 个 部 分 组 成 : 
图 形 类 别 : 可 以 是 bwplot、xyplot、densityplot、splom 等 。 
公式 : 变量 和 因子 变量 用 | 隔 开 。 
数据 : 一 个 包含 变量 值 的 数据 框 。 
JERE: 包括 标题 、x 坐 标 轴 名 、y 坐 标 轴 名 。 


在 第 2) 步 中 ，~auto$ympg|cyl.factor 这 个 公式 指示 lattice 画 一 个 按照 气缸 数 分 组 的 油耗 箱 线 图 。 这 里 没有 为 y 轴 指定 任何 
变量 。 对 于 箱 线 图 和 密度 图 ， 不 需要 指定 y 轴 。 箱 线 图 的 输出 如 图 2-13 所 示 。 


MPG by Number Of Cylinders 


Miles per Gallon 


图 2-13 


在 散 点 图 中 xyplot 消 数 和 mpg~weightlcyl.factor 公 式 指 示 lattice 贺 出 按照 气 杀 数 分 组 的 ，x 轴 为 车 重 ，y 轴 为 油耗 的 图 形 。 


个 变量 ， 否 则 R 会 报错 。 这 个 散 点 图 的 输出 如 图 2-14 所 示 。 


对 于 xyplot， 我 们 需要 提供 两 个 变量 


lattice 图 提供 了 一 些 默认 选择 来 得 出 多 变量 间 的 关系 。 我 们 可 以 添加 更 多 选项 来 完善 图 形 


为 图 像 添加 目 定 义 元 素 


默认 情况 下 ，lattice 依 照 屏 幕 设 备 来 为 绘图 面板 的 高 和 宽 赋 值 。 绘 图 使 用 默认 的 色彩 方案 。 然 而 ， 这 些 均 可 以 根据 目 己 的 需 


求 来 目 定 义 。 
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图 2-14 
你 应 该 在 执行 绘图 命令 之 前 为 所 有 lattice 图 改变 色彩 方案 。 这 个 色彩 方案 会 影响 所 有 用 lattice 包 绘制 的 Trellis 图 。 


> trellis.par.set (theme = col.whitebg() ) 


面板 占据 整个 输出 窗 门 。 它 可 以 被 3spect 所 控制 。layout 决 定 了 x 坐标 轴 方 向 上 面板 的 个 数 ， 以 及 它们 是 如 何 堆 蔷 的 。 将 这 
些 选项 添加 到 plot 函 数 的 调用 中 : 


> bwplot (~mpg|cyl.factor, data=auto,main="MPG by Number Of Cylinders", 
xlab="Miles per Gallon", layout=c(2,3),aspect=1) 


2.10 用 ggplot2 包 绘图 


ggploteBehReAW ATF, WANA TAH. TIN RAIS +tHTERORR SRN. 


为 了 创建 图 像 ， 我 们 至 少 需要 数据 ， 图 形 属性 (颜色 、 形 状 和 大 小 ) ， 几 何 对 象 (点 、 线 和 平滑 ) 。 几 何 对 象 决 定 了 将 会 绘 
制 哪 一 种 类 型 的 图 形 。 可 添加 分 面 来 得 到 不 同 条 件 下 的 图 像 。 


ER ZR 


下 载 本 章 的 数据 文件 并 将 auto-mpg.csv 复 制 到 你 的 R 工 作 目 录 中 。 用 read.csv 命 令 读 取 文 件 并 保存 到 auto 变 量 中。 将 
cylinders 这 个 变量 转换 成 一 个 因子 类 型 的 变量 。 如 果 你 还 没有 安 六 ggplot2 这 个 包 ， 那 么 用 下 面 的 命令 安装 : 


install .packages ("ggplot2") 
library (ggplot2) 
auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


autoScylinders <- factor(autoScylinders, labels=c("3cyl","4cyl", 
Sir IT "HEL" P "8cyl n) ) 


VV VV 


要 怎么 做 
为 了 用 ggplot2 包 来 画图 ， 请 遵循 以 下 步 又 : 
1) 绘制 原始 图 形 : 
> plot <- ggplot(auto, aes(weight, mpg) ) 
2) 添加 图 层 : 
> plot + geom point () 
> plot + geom point (alpha=1/2, size=5, 
aes (color=factor(cylinders))) + 


geom smooth (method="1m", se=FALSE, col="green") + 
facet grid(cylinders~.) + 


theme bw(base family = "Calibri", base size = 10) + 
labs(x = "Weight") + 

labs(y = "Miles Per Gallon") + 

labs (title = "MPG Vs Weight") 


工作 原理 
让 我 们 从 头 开始 ， 讨 论 一 些 变 体 : 
> plot <- ggplot(auto, aes(weight, mpg) ) 
首先 ， 绘 图 。 此 时 这 幅 图 像 并 没有 输出 到 屏幕 上 ， 因 为 我 们 还 没有 为 它 添 加 图 层 。ggplot 需 要 至 少 一 个 图 层 来 显示 图 像 
> plot + geom point () 


这 绘制 了 一 些 点 ， 这 些 点 构成 了 如 图 2-15 所 示 的 散 点 图 。 


图 2-15 


我 们 可 以 用 多 种 参数 来 控制 点 的 外 观 一 alpha 控制 点 的 色彩 透明 度 ，color 控 制 色彩 ，size 控 制 大 小 ，shape 控 制 形 状 。 可 
用 aes 参 数 来 为 这 个 图 层 添 加 图 形 属性 。 这 会 生成 图 2-16 所 示 图 像 。 


> plot + geom point (alpha=1/2, size=5, 
aes (color=factor (cylinders) ) ) 


将 这 条 代码 附加 在 前 述 命 令 之 后 : 


+ geom smooth (method="lm", se=FALSE, col="green") 


添加 geom_smooth 有 助 于 观察 模式 。 参 数 method=|m 使 用 了 一 个 线性 模型 作为 平滑 方法 。 参 数 se 默 认 被 设置 为 True， 这 
会 在 平滑 线 周围 显示 出 置信 区 间 。 这 支持 类 似 于 geom _point 的 美感 。 此 外 ， 也 可 以 设置 linetype。 得 到 的 输出 结果 如 图 2-17 所 


小 \。 


默认 情况 下 ，geom_smooth 遂 数 会 根据 样本 数量 大 小 而 使 用 两 种 不 同 的 平滑 方法 。 如 果 样 本 量 大 于 1000， 它 将 使 用 Im 平 
滑 ， 否 则 会 用 loess 平 滑 。 由 于 人 们 对 线性 模型 很 熟悉 ， 所 以 大 多 数 人 选择 使 用 lm 平滑 。 


将 下 列 代码 添加 到 之 前 的 命令 之 后 : 


+ facet grid(cylinders~. ) 
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图 2-17 


这 会 使 用 分 面 来 为 图 形 添加 一 个 维度 。 我 们 将 气缸 数 添 加 为 一 个 新 的 维度 。 这 里 使 用 了 facet _ grid 函数。 如 果 想 要 添加 更 多 
的 维度 ， 可 以 使 用 facet wrap 并 指定 如 何 组 织 布 局 ， 如 图 2-18 所 示 。 
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图 2-18 
如 果 我 们 将 其 改变 成 facet grid (~.cylinders) ， 气 缸 数 的 每 一 个 水 平 所 对 应 的 图 会 按照 水 平方 向 进行 排列 。 


附加 下 列 代 码 来 添加 注释 以 得 到 最 终 的 输出 图 像 : 


+ theme bw(base family = "Calibri", base size = 10) + labs (x = 
= "MPG Vs 


"Weight") + labs(y = "Miles Per Gallon") + labs(title = 
Weight") 


添加 上 的 注释 参见 图 2-19。 


更 多 细节 


学 习 的 最 好 方法 是 尝试 不 同 的 参数 选项 来 看 看 它们 是 如 何 影 响 图 像 的 。 下 面 描 述 ggplot 的 一 些 变 体 。 
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图 2-19 


1. 用 qplot 男 图 
gg9plot 的 最 简 版 本 是 同样 来 自 于 ggplot2 包 中 的 qplot 函 数 。qplot 也 可 以 用 来 为 图 像 添加 图 层 。qplot 的 通用 形式 如 下 : 


qplot (x, y, data=, color=, shape=, size=, alpha=, geom=, method=, 
formula=, facets=, xlim=, ylim= xlab=, ylab=, main=, sub=) 


对 于 菏 些 类 型 的 图 形 ， 比 如 和 直 万 图 、 条 形 图 ， 只 需要 提供 x (忽略 y) : 


# Boxplots of mpg by number of cylinders 
gplot (cylinders, mpg, data=auto, geom=c ("jitter"), 
color=cylinders, fill=cylinders, 

main="Mileage by Number of Cylinders", 


V V 


xlab="", ylab="Miles per Gallon") 
> # Regression of mpg by weight for each type of cylinders 
> qplot (weight, mpg, data=auto, geom=c ("point", "smooth"), 


method="1m", formula=y~x, color=cylinders, 
main="Regression of MPG on Weight") 


2. 基 于 连续 变量 的 条 件 绘图 


通常 ， 根 据 分 类 变量 来 画 条 件 图 。 然 而 ， 为 了 在 已 有 的 图 形 上 增加 维度 ， 你 也 许 想 将 其 与 数值 变量 结合 起 来 。 尽 管 qplot 有 
这 个 功能 ， 但 作为 条 件 变量 的 大 量 取 值 仍然 会 让 这 个 图 形 毫 无 用 处 。 可 以 用 cut 消 数 来 将 数值 变量 转换 为 分 类 变量 ， 如 下 所 示 : 


> # Cut with desired range 

> breakpoints <- c(8,13,18,23) 

> # Cut using Quantile function (another approach) 

> breakpoints <- quantile (autoSacceleration, seq(0, 1, length 
= 4), na.rm = TRUE) 


> ## create a new factor variable using the breakpoints 


> autoSaccelerate.factor <- cut(autoSacceleration, breakpoints) 


现在 我 们 可 以 在 cut 国 数 中 使 用 auto$accelerate.factor 变 量 。 


2.11 创建 便于 比较 的 图 表 


在 大 型 数据 集中 ， 我 们 经 党 通过 检查 不 同 部 分 的 表现 来 深入 洞察 数据 。 相 似 性 和 相 异 性 可 以 揭示 有 趣 的 模式 。 本 节 将 会 展示 
如 何 创建 能 够 进行 此 类 比较 的 图 像 。 


准备 就 绪 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 下 载 并 将 bike-rentals.csv 保 存 到 你 的 R 工 作 目 录 中 。 用 以 下 命令 读 取 数 据 到 R 中 : 


> bike <- read.csv("daily-bike-rentals.csv") 

> bikeSseason <- factor(bikeSseason, levels = c(1,2,3,4), 
labels = c("Spring", "Summer", "Fall", "Winter") ) 

> attach (bike) 


我 们 用 这 个 方法 来 创建 便于 按照 季度 比较 目 行车 租赁 情况 的 直方 图 。 
1. 使 用 基础 绘图 系统 


我 们 首先 来 看 如 何 用 R 的 基础 绘图 系统 创建 不 同 季度 的 目 行 后 日 租赁 量 的 直方 图 : 
1) 创建 2x2 的 网 格 用 于 绘制 4 个 季度 的 直方 图 : 


> par(mfrow = c(2,2)) 


2) 抽取 不 同 季节 的 数据 : 


> spring <- subset (bike, season == "Spring") scnt 
> summer <- subset (bike, season == "Summer") scnt 
> fall <- subset (bike, season == "Fall")Scnt 

> winter <- subset (bike, season == "Winter")Scnt 


3) 为 每 一 个 季度 绘制 直方 图 和 密度 图 : 


> hist (spring, prob=TRUE, 
xlab = "Spring daily rentals", main = "") 
> lines (density (spring) ) 


> hist (summer, prob=TRUE, 
xlab = "Summer daily rentals", main = "") 
> lines (density (summer) ) 


> hist(fall, prob=TRUE, 
xlab = "Fall daily rentals", main = "") 
> lines(density (fall) ) 


> hist (winter, prob=TRUE, 


xlab = "Winter daily rentals", main = "") 
> lines (density (winter) ) 


你 会 得 到 图 2-20 所 示 便 于 跨 季度 比较 的 输出 图 像 : 
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图 2-20 


2. 使 用 ggplot2 


可 以 用 一 行 命 令 得 到 之 前 的 大 部 分 结果 (如 图 2-21 所 示 ) : 


> qplot (cnt, data = bike) + facet wrap(~ season, nrow=2) + 
geom histogram(fill = "blue") 


图 2-21 


可 以 将 4 个 季度 的 图 像 整合 到 一 幅 直 方 图 中 并 用 不 同 的 颜色 来 区 分 不 同 的 季 厦 (如 图 2-22 所 示 ) : 


> qplot (cnt, data = bike, fill = season) 


season 


图 2-22 


工作 原理 


当 用 gdqplot 对 一 个 单独 的 变量 绘图 时 ， 你 会 默认 得 到 一 幅 直 方 图 。 添 加 facet 参 数 可 以 让 你 为 已 选择 分 面 的 每 一 个 水 平 创建 一 
幅 直方 图 。 默 认 情 况 下 ， 这 四 个 直方 图 会 排列 成 一 行 ， 可 以 用 facet wrap 参数 来 修改 排列 方式 。 


更 多 细节 


也 可 以 使 用 ggplot2 来 创建 便于 比较 的 箱 线 图 。 


用 ggplot2 创 建 便 于 比较 的 箱 线 图 


除了 默认 的 直 万 图 之 外 ， 可 以 通过 下 述 两 种 万 法 得 到 箱 线 图 : 


> gplot(season, cnt, data = bike, geom = c("boxplot"), fill = season) 
> 


> ggplot (bike, aes(x = season, y = cnt)) + geom boxplot () 


前 面 的 代码 会 创建 如 图 2-23 所 示 输 出 。 


第 二 行 代码 创建 图 2-24 所 示 图 像 。 
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图 2-23 
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图 2-24 


2.12 ”创建 有 助 于 友 现 因果 天 系 的 图 表 


在 呈现 数据 的 时 候 ， 与 其 仅仅 将 信息 简单 地 呈现 出 来 ， 不 如 呈现 出 对 现象 的 解释 。 因 果 关 系 假设 的 可 视 化 可 以 帮助 我 们 清晰 


地 交流 想法 。 
准备 束 绪 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 下 载 并 将 daily-bike-rentals.csv 保 存在 你 的 R 工 作 目 录 中 。 用 以 下 命令 读 取 数据 : 


> bike <- read.csv("daily-bike-rentals.csv") 


> bikeSseason <- factor(bikeSseason, levels = c(1,2,3,4), 
labels = c("Spring", "Summer", "Fall", "Winter") ) 
> bikeSweathersit <- factor(bikeSweathersit, levels = c(1,2,3), 


labels = c("Clear", "Misty/cloudy", "Light snow") ) 
> attach (bike) 


通过 目 行 后 租赁 数据 ， 可 以 用 不 同 天 气 条 件 下 的 租赁 数量 箱 线 图 来 展现 天 气 与 租赁 数 乙 间 的 因果 关系 假 设 : 


> gplot (weathersit, cnt, data = bike, geom = c("boxplot"), fill = 
weathersit) 


前 述 命令 的 输出 如 图 2-25 所 示 。 


— Misty/cloudy 


= Light snow 


| | 
Misty/cloudy Light snow 
weathersit 


图 2-25 


如 果 你 愿意 ， 也 可 以 把 真实 的 点 添加 到 图 像 上 ;在 geom 人 参数 中 加 入 jitter 。 


> qplot(weathersit, cnt, data = bike, geom = c("boxplot", 
"Jitter"), fill = weathersit) 


前 述 命令 得 到 图 2-26 所 示 输 出 。 


weathersit 


<= Clear 


== Misty/cloudy 


= Light snow 


| 
Misty/cloudy 
weathersit 


图 2-26 


2.13 ”创建 多 元 图 像 

在 探索 数据 时 ， 我 们 希望 能 感受 到 尽 可 能 多 的 变量 之 间 的 交互 。 尽 管 显示 器 和 打印 媒介 只 能 展示 两 个 维度 ， 但 是 我 们 可 以 创 
造 性 地 运用 R 的 绘图 特性 来 将 更 多 的 维度 宫 括 进来 。 本 节 将 展示 如 何 表现 出 5 个 变量 之 间 的 天 系 。 
准备 束 绪 


从 文件 中 读 取 数 据 并 创建 因子 。 同 时 也 通过 加 载 数 据 集 到 内 存 中 来 减少 键盘 输入 量 : 


> library (ggplot2) 

> bike <- read.csv("daily-bike-rentals.csv") 

> bikeSseason <- factor(bikeSseason, levels = c(1,2,3,4), 
labels = c("Spring", "Summer", "Fall", "Winter") ) 

> bikeSweathersit <- factor(bikeSweathersit, levels = c(1,2,3), 
labels = c("Clear", "Misty/cloudy", "Light snow") ) 

> bikeSwindspeed.fac <- cut(bikeSwindspeed, breaks=3, 
labels=c("Low", "Medium", "High") ) 

> bikeSweekday <- factor(bikeSweekday, levels = c(0:6), 
labels = .¢("'Sun"; "Mon"; "Tue"; "Wed"; Thur®?: "Fri"; "Sac"}) 


> attach(bike) 


用 以 下 命令 创建 一 个 多 元 图 像 : 
> plot <- ggplot (bike,aes(temp,cnt) ) 
> plot + geom point (size=3, aes(color=factor(windspeed.fac))) + 


geom smooth (method="1m", se=FALSE, col="red") + 
Facet grid(weekday ~ season) + theme (legend.position="bottom" ) 


前 述 命令 产生 了 如 图 2-27 所 示 输 出 。 


工作 原理 
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图 2-27 


第 3 章 ” 它 属于 哪儿 一 一 分 类 近 林 


3.1 515 


分 析 师 常 弟 希望 将 事物 分 类 ， 例 如 ， 预 测 某 个 给 定 的 人 是 否 是 一 个 潜在 的 买 家 。 其 他 一 些 包谷 分 类 的 例子 ， 比 如 一 件 产 
人 否 有 缺陷 ， 一 笔 退 税 是 否 是 欺诈 性 质 的 ， 一 位 顾客 是 否 会 拖欠 付 蒜 ， 一 笔 信用 卡 交 易 是 真实 的 还 是 伪造 的 。 本 章 涵 匡 了 通过 R 应 
分 类 技术 的 万 法 。 


第 3 草 ” 它 属 于 哪儿 一 一 分 类 拉 术 


分 析 师 常 弟 希望 将 事物 分 类 ， 例 如 ， 预 测 某 个 给 定 的 人 是 否 是 一 个 潜在 的 买 家 。 其 他 一 些 包 仿 分 类 的 例子 ， 比 如 一 件 产 品 是 


人 否 有 缺陷 ， 一 笔 退 税 是 否 是 欺诈 性 质 的 ， 一 位 顾客 是 否 会 抱 久 付 蒜 ， 一 笔 信用 卡 交 易 是 真实 的 还 是 伪造 的 。 本 草 涵 匡 了 通过 R 应 


用 分 类 技术 的 万 法 。 


3.2 BUIRA/D RSE 
你 也 许 建立 了 一 个 分 类 模型 并 希望 通过 比较 预测 值 和 真实 值 来 评估 这 个 模型 。 通 常情 况 下 你 会 在 保留 数据 上 进行 这 项 评估 ， 
得 到 模型 在 训练 集 上 的 表现 也 是 有 用 的 ， 但 你 绝 不 能 将 其 作为 一 个 客观 的 度量 。 


准备 束 绪 

如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 下 载 并 确保 college-perf.csv 这 个 文件 在 你 的 R 工 作 目 录 中 。 这 个 文件 包含 一 些 大 
学 生 的 数据 。 变 量 Perf 代 表 了 他 们 在 大 学 中 的 成 绩 ， 分 为 高 、 中 、 低 。 变 量 Pred 包 仿 了 关于 成 绩 水 平 的 分 类 预测 模型 的 预测 
值 。 下 列 代码 读 入 了 数据 并 将 因子 水 平 转换 成 有 意义 的 顺序 一 一 默认 情况 下 R 会 将 因子 按照 字母 顺序 排列 : 


> cp <- read.csv("college-perf.csv") 


> cpS$Perf <- ordered(cp$Perf, levels = 
c("Low", "Medium", "High") ) 


> cp$Pred <- ordered(cp$Pred, levels = 


+ c("Low", "Medium", "High") ) 
要 怎么 做 
按照 下 列 步 骤 建 立 误差 /分 类 -混淆 矩阵 : 


1) 首先 建立 基于 真实 值 和 预测 值 的 双向 表格 : 


> tab <- table(cp$Perf, cps$Pred, 
dnn = c("Actual", "Predicted") ) 


一 
> tab 
这 会 得 出 
Predicted 

Actual Low Medium High 
Low 1150 84 98 
Medium 166 1801 170 
High 35 38 458 


2) 将 原始 值 呈现 为 比例 或 者 百分比 。 为 了 得 到 整个 表格 中 数据 的 比例 ， 可 用 以 下 代码 : 


> prop.table (tab) 


Predicted 
Actual Low Medium High 
Low 0.28750 0.02100 0.02450 
Medium 0.04150 0.45025 0.04250 
High 0.00875 0.00950 0.11450 


3) 我 们 通 单 会 友 现 按 行 或 按 列 计算 百分比 更 加 方便 ， 为 了 得 到 按 行 计算 且 四 舍 五 入 到 小 数 点 后 一 位 数字 的 和 百分比， 可 将 第 


二 参数 设置 为 1: 


> round(prop.table(tab, 1)*100, 1) 


Predicted 
Actual Low Medium High 
Low 86.3 Sus Tol 
Medium 7.8 84.3 8.0 
High 6.6 7.2, BB-a 


Gis “第 二 个 参数 设置 为 2 会 得 到 按 列 计算 的 比例 。 


工作 原理 
table( 冰 数 提供 了 一 个 简单 的 双向 交叉 表 。 对 于 第 一 个 变量 的 每 一 个 唯一 值 ， 它 会 计算 第 二 个 变量 不 同 值 的 出 现 次 数 。 这 个 


消 数 可 以 处 理 数值 型 、 因 子 型 和 字符 型 变量 。 


在 处 理 多 于 两 三 个 分 类 时 ， 将 误差 拒 阵 呈现 为 图 表 有 助 于 快速 得 到 模型 企 不 同 分 类 上 的 表现 。 
1. 误 帮 / 分 类 - 混 清算 阵 的 可 视 化 


可 用 下 面 的 命令 创建 箱 线 图 : 


> barplot (tab, legend = TRUE) 


前 述 命 令 的 输出 如 图 3-1 所 示 。 


TP 


Low Medium 


图 3-1 
建立 马赛 克 图 (mosaicplot) 的 命令 如 下 : 
> mosaicplot(tab, main = "Prediction performance") 


运行 命令 之 后 的 输出 如 图 3-2 所 示 。 
2. 在 不 同类 别 上 比较 模型 的 表现 


可 以 用 summary 函 数 检查 在 各 个 类 别 上 的 模型 是 否 有 显著 差异 : 


Prediction performance 


> summary (tab) 

Number of cases in table: 4000 
Number of factors: 2 

Test for independence of all factors: 


Chisq = 4449, df = 4, p-value = 0 


低 的 p-value 告 诉 我 们 在 不 同 的 分 类 上 ， 比 例 什 有 看 显著 差异 。 


3.3 创建 ROC 图 


在 应 用 分 类 技术 时 ， 可 以 依赖 于 技术 手段 来 自动 将 样本 分 类 。 或 者 可 以 让 分 类 技术 仪 仪 得 出 样本 属于 各 个 分 类 的 概率 ， 然 后 
自己 来 决定 截断 概率 。 接 收 者 操作 特征 (ROC) 图 为 后 者 建立 了 一 个 不 同 截断 水 平 下 的 真 阳性 和 假 阳性 分 布 的 可 视 化 展示 。 我 
们 将 用 ROCR 包 来 创建 ROC 图 。 
准备 整 绪 

如 果 你 还 没有 安 六 ROCR 包 ， 那 么 现在 安 闪 叱 。 从 下 载 并 载 入 本 草 的 数据 文件 ， 然 后 确保 将 rocr-example-1.csv 和 Drocr- 
example-2.csv 这 两 个 文件 存放 在 你 的 R 工 作 目 录 中 。 


要 怎么 做 


按照 下 列 步 骤 创 建 ROCR 图 : 
1) 载 入 ROCR 包 : 


> library (ROCR) 


2) 恋 入 数据 文件 并 至 看 数据 文件 : 


> dat <- read.csv("roc-example-1.csv") 
> head (dat) 


prob class 
.9917340 
.9768288 
. 9763148 
.3601505 
.9351574 
.9335989 


nu PWD PB 
20000 OC 
PPP PP PB 


3) 创建 预测 对 象 : 


> pred <- prediction(datSprob, datS$class) 


A) 创建 预测 表现 对 象 


> perf <- performance (pred, "tpr", "fpr") 


5) IE: 


> plot (perf) 
> lines( par()Susr[1:2], par()Susr[3:4] ) 


得 到 图 3-3 所 示 输 出 。 
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6) 找到 各 个 真 阳 性 比率 的 截断 点 ， 从 perf 对 象 中 抽取 相关 值 到 数据 框 prob.cuts 中 : 


> prob.cuts <- data.frame(cut=perf@alpha.values[[1]], fpr=perf@x. 


values[[1]], 


> 


head (prob. cuts) 


cüt fox tpr 
at Inf 0 0.00000000 
2 0.9917340 0 0.01851852 
3 0.9768288 0 0.03703704 
4 0.9763148 0 O..05 555556 
5 0.9601505 0 0.07407407 
6 0.9351574 0 0.09259259 
> tail (prob.cuts) 
out fpr tpr 
96 0.10426897 0.8913043 1 
97 0.07292866 0.9130435 I 
98 0.07154785 0.9347826 1 
99 0.04703280 0.9565217 1 
100 0.04652589 0.9782609 il 
101 0.00112760 1.0000000 1 


tpr=perf@y.values[[1]]) 


从 数据 框 prob.cuts 中 ， 我 们 可 以 选择 所 希望 的 真 阳性 比率 对 应 的 截断 值 。 


工作 原理 
步骤 1 载 入 包 ， 步 骤 2 读 取 文 件 。 


步骤 3 基于 作为 参数 的 概率 值 和 分 类 标签 创建 了 一 个 预测 对 象 。 在 当前 的 例子 中 ， 我 们 的 分 类 标签 是 0 和 1， 且 默认 0 为 “ 失 
败 ” 组 ，1 为 “成 功 ” 组 。 我 们 将 会 在 下 面 的 更 多 细节 中 看 到 如 何 处 理 任意 的 分 类 标签 。 


步骤 4 基于 预测 对 象 创建 了 一 个 预测 表现 对 象 。 我 们 在 代码 中 指明 我 们 想 要 “ 真 阳性 比率 ”和 “ 假 阳 性 比率 ”。 
步骤 5 绘制 了 预测 表现 对 象 。plot 消 数 并 不 会 绘制 出 作为 ROC 下 限 的 对 角 线 ， 我 们 用 第 二 行 代 码 来 得 到 它 。 


在 已 有 概率 值 的 情况 下 ， 我 们 通常 用 ROC 图 来 选择 一 个 最 好 的 用 作 分 类 的 截断 值 。 步 骤 6 为 你 展示 了 如 何 从 预测 表现 对 象 中 
抽取 图 上 每 一 个 点 所 对 应 的 截断 值 。 在 这 些 方 法 的 帮助 下 ， 我 们 可 以 对 每 一 个 真 阳 性 比率 得 到 其 对 应 的 截断 值 ， 同 时 对 希望 的 真 
阳性 比率 估计 其 对 应 的 阶段 概率 。 


我 们 接 下 来 讨论 ROCR 的 更 多 重要 特性 。 


使 用 任意 的 分 类 标签 


与 之 前 的 例子 不 同 ， 我 们 也 许 想 为 “成 功 ” 和 “失败 ”加 上 任意 的 分 类 标签 。rocr-example-2.csv 文 件 用 buyer 和 non- 
buyer 作 为 分 类 标签 ， 其 中 buyer 代 表 了 成 功 的 样本 。 


在 这 个 例子 中 ， 我 们 需要 通过 传递 一 个 分 类 标签 分 量 来 明确 地 指出 成 功 和 失败 的 标签 ， 这 个 向 量 中 的 第 一 个 元 素 是 失败 标 
3: 


> dat <- read.csv("roc-example-2.csv") 

> pred <- prediction (dat$prob, datsclass, label.ordering = c("non- 
buyer", "buyer")) 

> perf <- performance (pred, "tpr", "fpr") 

> plot (perf) 

> lines( par()Susr[1:2], par()Susr[3:4] ) 


分 类 树 


3.4 构建、 绘制 和 评估 


可 以 使 用 好 几 个 R 包 来 构建 分 类 树 ， 它 们 在 底层 其 实 是 一 样 的 。 
EMER 


如 果 你 还 没有 安装 rpart、rpart.plot 和 caret 包 ， 现 在 去 安装 它们 。 下 载 并 载 入 本 章 的 数据 文件 ， 然 后 确保 将 banknote- 
authentication.csv file 放 置 在 你 的 R 工 作 目录 中 。 


本 方法 将 展示 如 何 用 rpart 包 来 构建 分 类 树 ， 并 用 rpart.plot 包 来 绘制 美观 的 树 图 。 
1) 载 入 rpart、rpart.plot 和 Caret 包 : 
> library (rpart) 


> library (rpart.plot) 
> library (caret) 


2) 读 取 数据 : 


> bn <- read.csv("banknote-authentication.csv") 


3) 创建 数据 分 块 。 我 们 需要 两 块 数 据 一 一 训练 数据 和 验证 数据 。 与 其 将 数据 复制 到 分 块 中 ， 不 如 和 直接 保存 训练 集 样本 的 索 
引 ， 然 后 在 需要 的 时 候 利用 索引 抽取 出 结果 。 


> set.seed(1000) 


> train.idx <- createDataPartition(bn$class, p = 0.7, list = 
FALSE) 
4) 创建 树 : 

> mod <- rpart(class ~ ., data = bn[train.idx, ], method = 

"clase", GOonErel = Tpart..control (hinsplikt = 20, Gp = 0017) 


5) 查看 文本 输出 (如 果 你 没有 在 第 三 步 中 设置 随机 数 种 子 ， 那 么 你 得 到 的 结果 可 能 会 跟 这 里 展示 的 不 一 样 ) : 


> mod 
n= 961 


node), split, n, loss, yval, (yprob) 
* denotes terminal node 


1) root 961 423 0 (0.55983351 0.44016649) 
2) variance>=0.321235 511 52 0 (0.89823875 0.10176125) 
4) curtosis>=-4.3856 482 29 0 (0.93983402 0.06016598) 
8) variance>=0.92009 413 100 (0.97578692 0.02421308) * 
9) variance< 0.92009 69 19 0 (0.72463768 0.27536232) 
18) entropy< -0.167685 52 6 0 (0.88461538 0.11538462) * 
19) entropy>=-0.167685 17 41 (0.23529412 0.76470588) * 
5) curtosis< -4.3856 29 6 1 (0.20689655 0.79310345) 
10) variance>=2.3098 7 1 O (0.85714286 0.14285714) * 
11) variance< 2.3098 22 0 1 (0.00000000 1.00000000) * 
3) variance< 0.321235 450 79 1 (0.17555556 0.82444444) 
6) skew>=6.83375 76 18 0 (0.76315789 0.23684211) 
12) variance>=-3.4449 57 0 0 (1.00000000 0.00000000) * 
13) variance< -3.4449 19 1 1 (0.05263158 0.94736842) * 
7) skew< 6.83375 374 21 1 (0.05614973 0.94385027) 
14) curtosis>=6.21865 106 16 1 (0.15094340 0.84905660) 
28) skew>=-3.16705 16 0 0 (1.00000000 0.00000000) * 
29) skew< -3.16705 90 0 1 (0.00000000 1.00000000) * 
15) curtosis< 6.212665 268 5 1 (0.01865672 0.98134328) * 


6) 创建 树 图 (如 果 你 没 


有 企 第 三 步 中 设置 随机 数 种 子 ， 那 么 你 得 到 的 树 图 可 能 会 跟 这 里 展示 的 不 一 样 ) : 


> prp(mod, type = 


faclen = 4, varlen 


2 


1 


前 述 命令 的 输出 结果 如 图 3-4 所 示 。 


7) 给 树 勇 权 : 


extra = 104, 


8, 


> # First see the cptable 


> 


Your table can be different because of the 


nn = TRUE, fallen.leaves 
shadow.col = "gray") 


> # random aspect in cross-validation 


> 


U FP Ww N Ee 


JY A 


Ve VO O M NN N Y y 


O O O O Pp 


rel error 
.00000000 
.30969267 
21513002 
OO 
.09692671 


.08510638 


U UGse2o7 9 


Coo Oo ff. = 


ACL IO 


.0000000 
.3262411 
cee RUF 
(Loud 36 
.1347518 


L13230 fs 
Ma Be 


Ge O G Go Bo 


xstd 


Ses Sr. 
AS Teo 
.02247542 
ULES 79222 
~OLFILOSO 


JUL a 


0 ULSS ry Le 


Choose CP value as the highest value whose 


xerror is not greater than minimum xerror + xstd 
With the above data that happens to be 

0 01182033 
Your values could be different because of random 


# !!Note!!: 
modscptable 

CP nsplit 
0.69030733 0 
0.09456265 1 
0.04018913 2 
0./\01891253 4 
0.015203 3 6 
0.01063830 7 
0.01000000 9 
= 
= 
it 
# the fifth one, 
= 
# sampling 


mod.pruned 


= prune (mod, modS$cptable[5, 


nCp"]) 


TRUE, 


variance >= 2.3 variance >= -3.4 


11% 
skew >= -3.2 


| 

1 Wt 
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图 3-4 


8) BARREN (RAIA RES ARH) ， 如 图 3-5 所 示 。 


> prp(mod.pruned, type = 2, extra = 104, nn = TRUE, fallen.leaves 
= TRUE, faclen = 4, varlen = 8, shadow.col = "gray") 


9) FAS SSE ERIE Ptrain.idxHAs) : 


> pred.pruned <- predict(mod, bn[-train.idx,], type = "class") 


10) AEREN- AAE : 


> table (bn [-train.idx;]Ş$class, pred.pruned, dnn = c("Actual", 
"Predicted") ) 


Predicted 
Actual 0 1 
O 213 11 


i: aoe eo 


curtosis >= -4.4 


工作 原理 


步骤 1~3 分 别 载 入 了 包 ， 读 取 了 数据 ， 选 择 了 训练 分 块 中 的 样本 。 更 多 天 于 分 块 的 细 忆 请 参考 第 2 草 。 在 第 三 步 中 我 们 设置 
了 随机 数 种 子 ， 这 样 结果 应 该 与 我 们 所 展示 的 一 致 。 


步骤 4 创建 了 分 类 树 模型 : 


> mod <- rpart (class ~ ., data = bnltrain.idx, ], method = "class", 
CONECTOL = Ypart-cöńtrol(minsplit = 20; ep = -0.01)) 


rpart() Rav T Ol Ma BRAN R: 

指定 了 目 变 量 和 因 变 量 的 公式 。 

+ 所 使 用 的 数据 集 。 

method="class" 指 明 我 们 想 要 建立 分 类 树 (与 回归 树 相 对 应 ) 。 


- 控制 参数 control=rpart.control0 设 置 。 这 里 我 们 设置 了 树 的 节点 最 少 需要 包含 20 个 样本 才能 进行 进一步 的 分 割 ， 同 时 复杂 度 


参数 设置 为 0.01 这 两 个 值 其 实 就 是 默认 值 ， 我 们 在 此 写 出 来 是 为 了 举例 说 明 。 


步骤 5 产生 了 模型 结果 的 一 个 文本 展示 。 步 又 6 用 rpart.plot 包 中 的 prp(0 阔 数 给 出 了 一 个 美观 的 树 图 : 


> prp(mod, type = 2, extra = 104, nn = TRUE, fallen.leaves = TRUE, 
faclen = 4, varlen = 8, shadow.col = "gray") 


+ 用 type=2 来 得 到 类 型 2 的 树 图 。 此 类 图 中 每 一 个 节点 都 有 文字 标签 ， 且 在 每 一 个 节点 下 方 有 分 隔 标 签 。 


: 用 extfa=4 来 显示 1 个 节点 中 分 属 不 同类 别 的 样本 的 概率 〈 对 同一 个 节点 而 言 的 条 件 概率 ， 因 此 和 为 1) ; 加 上 100 (于 是 


extra=104) 可 以 显示 一 个 节点 中 的 样本 量 相 对 于 整体 样本 总 量 的 百分比 。 
- 用 nn=TRUE 来 显示 节点 编号 ; 根 节点 为 1 且 第 hn 个 节点 的 子 节点 编号 为 2n0 和 2nh+1。 
- 用 fallen.leaves=TRUE 将 所 有 的 叶 节 点 展示 在 图 像 的 底部 。 
- 用 faclen 将 节点 中 的 分 类 名 缩减 至 不 超过 最 大 长 度 4。 
. 用 vatlen 来 缩减 变量 名 。 
- 用 shadow.col 来 指定 每 个 节点 的 阴影 颜色 。 


步骤 7 通过 为 树 剪 枝 来 降低 模型 过 度 依赖 与 训练 集 的 可 能 性 ， 即 减少 过 度 拟 合 。 在 这 一 步 中 ， 我 们 首先 查看 从 交叉 验证 中 得 
到 的 复杂 性 表格 ， 然 后 用 这 张 表 来 决定 截断 复杂 性 水 平 ， 使 得 最 大 的 xerror (交叉 验证 误差 ) 不 超过 最 小 交叉 误差 的 一 倍 标 准 差 


步骤 8~10 展 示 了 剪 梳 后 的 树 ;， 用 问 校 后 的 树 来 预测 验证 分 块 所属 的 类 别 ， 并 生成 验证 分 块 的 误 帮 算 阵 。 


接 下 来 我 们 讨论 分 类 树 预测 的 一 个 重要 变 体 。 
1. 计 算 原始 概率 
我 们 可 将 分 类 参数 茶 换 为 type="prob" 来 得 到 概率 值 : 
> pred.pruned <- predict (mod, bn[-train.idx,], type = "prob") 
2. 创 建 ROC 图 
使 用 上 述 原始 概率 和 分 类 标签 ， 我 们 可 以 创建 ROC 图 。 更 多 细节 可 参考 3.3 节 的 方法 (结果 如 图 3-6 所 示 ) : 
> pred <- prediction (pred.pruned[,2], bn[-train.idx,"class"]) 


> perf <- performance (Dred; "tpr", "fpr") 
> plot (perf) 
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3.5 ”用 随机 森林 模型 分 类 


randomForest 这 个 包 可 帮助 你 轻松 运用 强大 (但 是 计算 密集 ) 的 随机 森林 分 类 技术 。 
准备 就 绪 


如 果 你 还 没有 安装 randomForest 和 caret 包 ， 那 么 现在 安装 它 。 下 载 本 草 数 据 文 件 banknote-authentication.csv 并 放置 于 
你 的 R 工 作 目 录 中 。 我 们 会 基于 其 他 变量 创建 一 个 随机 森林 模型 来 预测 class 变 量 。 


要 使 用 随机 森林 模型 进行 分 类 ， 请 遵循 下 述 步 骤 : 
1) 载 入 randomForest 和 caret 包 .: 


> library (randomForest) 
> library (caret) 


2) 读 取 数据 并 将 啊 应 变量 转换 为 因子 : 


> bn <- read.csv("banknote-authentication.csv") 
> bnSclass <- factor(bnSclass) 


3) 选择 数据 的 一 个 子 集 来 建 模 。 在 随机 森林 中 ， 我们 不 需要 真 的 分 割 数据 来 评估 模型 ， 因 为 树 的 构造 过 程 中 的 每 一 步 已 经 


暗合 了 分 割 的 过 程 。 然 而 ， 我 们 在 此 保留 一 部 分 数据 仅仅 是 为 了 举例 说 明 用 模型 来 预测 的 过 程 ， 并 且 得 到 模型 的 表现 水 平 : 
> set.seed(1000) 


> sub.idx <- createDataPartition(bn$class, p=0.7, list=FALSE) 


4) 创建 随机 森林 模型 (由 于 它 建 立 了 很 多 分 类 树 ， 下 面 的 命令 即使 在 中 等 大 小 的 数据 集 上 运行 也 会 耗费 大 量 时 间 ) : 
> mod <- randomForest (x = 


= bn[sub.idx,1:4], y=bn[sub. 
idx,5],ntree=500, keep.forest=TRUE) 


5) 用 模型 为 第 3 步 中 保留 的 数据 样本 做 预测 : 
> pred <- predict (mod, bn[-sub.idx, ] ) 
6) 建立 误差 矩阵 : 


> table(bn[-sub.idx,"class"], 
"Predicted") ) 


Predicted 
Actual 0 1 
0 227 1 
1 1 182 


pred, dnn = c("Actual", 


工作 原理 

步骤 1 载 入 了 必需 的 包 ， 步 又 2 读 入 数据 并 将 响应 变量 转换 为 因子 。 

第 3 步 将 一 些 数 据 保留 起 来 以 作 后 面 使 用 。 严 格 来 讲 ， 我 们 并 不 需要 为 随机 森林 分 割 数 据 ， 因 为 在 建立 每 一 棵 树 的 时 候 ， 此 
方法 会 保留 一 部 分 数据 用 作 交 叉 验证 。 我 们 在 此 保留 一 些 样 本 仪 仪 是 为 了 举例 况 明 用 模型 来 预测 的 整个 过 程 (我 们 设 吓 了 随机 数 
种 子 使 你 的 结果 能 跟 我 们 的 一 致 ) 。 


第 4 步 用 randomForest 函 数 来 构建 模型 。 由 于 预测 变量 是 数据 框 中 的 前 四 个 ， 并 且 我 们 只 是 用 选中 的 子 集 来 建 模 ， 因 此 我 


们 指定 x=bn[sub.idx，1: 入。 由 于 目标 变量 在 第 五 列 ， 我 们 指定 y=bn[sub.idx，5]。 我 们 用 ntree 参 数 规定 了 和 森林 中 所 需 创 建 
的 树 的 数量 (默认 值 为 500) 。 

步骤 5 说 明了 如 何 用 模型 做 预测 。 

步骤 6 用 预测 值 和 真实 值 来 构建 误差 所 阵 。 


er iğ wt randomPorest 2 Ak 17 EA AKG a HE Ry AOE LE, 此 我 们 无 法 用 这 个 模型 来 预测 未 来 的 样本 。 如 需 强制 
这 个 模型 保留 创建 好 的 和 森林， 可 使 用 参数 keep.forest=TRUE。 


BaZa 


我 们 接 下 来 讨论 一 些 重 要 的 选项 。 


1. 计 算 原 始 概率 


对 于 简单 的 分 类 树 模 型 ， 我 们 可 以 通过 指定 type= "prob "来 产生 概率 值 而 不 是 分 类 (type 的 默认 值 "response "产生 分 类 模 


型 ) 。 
> probs <- predict(mod, bn[-sub.idx,], type = "prob") 
2. 创 建 ROC 图 
使 用 之 前 得 出 的 概率 ， 我 们 可 以 创建 ROC 图 。 更 多 细节 可 以 参考 3.3 蔬 。 
> pred <- prediction(probs[,2], bnl{-sub.1idx,"class"] ) 


> perf <- performance(pred, "tpr", "fpr") 
> plot (perf) 


前 述 命令 的 输出 结果 如 图 3-7 所 示 。 
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3. 指 定 分 类 的 截断 值 


除了 使 用 黑 认 的 简单 分 类 规则 ， 我 们 可 以 指定 一 个 长 度 等 于 类 别 数 的 截断 概率 癌 量 。 投 票 比 率 和 截断 比率 之 间 的 比例 决定 了 
胜出 的 类 别 。 我 们 可 以 同时 在 创建 树 和 做 预测 时 指定 这 个 截断 概率 向 量 。 


3.6 ”用 支持 同 量 机 分 类 


e1071 包 可 以 帮助 你 轻松 应 用 非常 强大 的 支持 同 量 机 (SVM) 分 类 技术 。 
EMEA 


如 果 你 还 没有 安装 e1071 包 和 caret 包 ， 那 么 现在 安 逆 它 。 下 载 本 章 的 数据 文件 ， 然 后 确保 将 banknote-authentication.csv 
文件 放置 在 你 的 R 工 作 目 录 中 。 我 们 会 基于 其 他 变量 建立 文 持 向 量 机 模型 来 预测 class 变 量 。 


为 了 用 SVM 进行 分 类 ， 请 遵循 以 下 步骤 : 
1) 载 和 e1071 和 caret 包 : 


> library (e1071) 
> library (caret) 


2) 读 取 数 据 : 


> bn <- read.csv("banknote-authentication.csv") 


3) 将 输出 变量 转换 为 因子 : 
> bnSclass <- factor(bnSclass) 
4) 为 数据 分 块 : 


> set.seed(1000) 
> t.idx <- createDataPartition(bn$class, p=0.7, list=FALSE) 


5) 建立 模型 : 


> mod <- svm(class ~ ., data = bn[t.idx,]) 


6) ER- MRAN STE AER i RS CAA : 


> table(bn[t.idx,"class"], fitted(mod), dnn = c("Actual", 
"Predicted") ) 


Predicted 
Actual 0 af 


0 534 0 
1 0 427 


7) 在 验证 分 块 上 考查 模型 的 表现 : 


> pred <- predict (mod, bn[-t.idx,]) 
> table(bn[-t.idx, "class"], pred, dnn = c("Actual", "Predicted") ) 
Predicted 
Actual 0 1 
0 228 0 
1 0 183 


8) 在 训练 分 块 上 绘制 模型 的 图 像 。 我 们 的 数据 包含 多 于 两 个 的 预测 变量 ， 但 我 们 只 能 在 图 像 中 展示 两 个 ， 我 们 选择 了 skew 


和 Variance: 


> plot (mod, data=bn[t.idx,], skew ~ variance) 


前 述 命令 的 输出 见 图 3-8。 


SVM classification plot 


9) 在 验证 分 块 上 绘制 模型 的 图 像 。 我 们 的 数据 包含 多 于 两 个 的 预测 变量 ， 但 我 们 只 能 在 图 像 中 展示 两 个 ， 我 们 选择 了 skew 


和 variance : 


> plot(mod, data=bn[-t.idx,], skew ~ variance) 


前 述 命令 的 输出 如 图 3-9 所 示 。 


SVM classification plot 


0 


Variance 


工作 原理 


步骤 1 载 入 了 必需 的 包 。 


ËN 


步骤 2 读 取 了 数据 。 
步骤 3 将 输出 变量 class 转 换 为 因子 。 
步骤 4 指定 了 训练 分 块 中 要 包含 的 样本 (我 们 设置 了 随机 数 种 子 ， 这 样 结果 应 该 与 我 们 所 展示 的 一 致 ) 。 


步骤 5 建 六 了 SVM 分 类 模型 。svm 函 数 会 根据 输出 变量 的 属性 而 决定 模型 的 类 型 (分 类 或 回归 ) 。 当 输出 变量 是 因子 
有 时，svm 会 建立 一 个 分 类 模型 。 我 们 至 少 需 要 传递 给 模型 参数 的 是 公式 和 我 们 所 使 用 的 数据 集 (或 者 ， 我 们 也 可 以 将 输出 变量 和 


预测 变量 分 别传 递 给 x 和 y 参 数 ) 。 


步骤 6 用 得 到 的 包含 整个 模型 的 9vm 对 象 mod 来 创建 一 个 误差 /分 类 - 混 浦 矩阵。 这 个 sSvm 模 型 保留 了 其 在 训 纤 分 块 上 的 拟 合 
值 ， 因 此 我 们 不 需要 再 为 训练 集 计 算 预 测 值 。 我 们 用 fitted (mod) 来 得 到 拟 合 值 。 关 于 table 函 数 的 更 多 细节 可 参考 3.2 节 的 方 


步骤 7 使 用 predict 消 数 在 验证 分 块 上 生成 了 模型 的 预测 值 。 我 们 将 需要 预测 的 数据 以 参数 的 形式 传递 给 模型 。 它 会 用 这 些 预 
WUE RE MA AN RZE/ TRS IEEF, 


PROF ZS ERO Val FA plot ARRERA AR. BTS AS eee el A RA SES ANAS EA plot. WRIST A 
只 有 两 个 预测 变量 ,我 们 丈 可 以 绘制 完整 的 图 像 。 在 例子 中 原始 数据 包含 四 个 预测 变量 ， 所 以 我 们 只 能 选择 其 中 两 个 来 画图 。 


sm 子 数 有 一 些 附加 的 参数 。 我 们 可 以 通过 它们 来 控制 模型 。 
1. 控 制 变量 缩放 


默认 情况 下 ，svm 在 建 模 之 前 会 将 所 有 的 变量 (预测 变量 和 输出 变量 ) 缩放 至 均值 为 0， 方 差 为 1。 因 为 这 样 做 通 单 会 得 到 更 
fa 


2. 决 定 SVM 模 型 的 类 型 


默认 情况 下 ， 当 输出 变量 是 因子 时 ，svm 会 运行 一 个 分 类 模型 ， 当 输出 变量 是 数值 时 ， 会 运行 回归 模型 。 我 们 可 以 改写 这 个 
默认 值 或 通过 下 面 这 些 类 型 值 来 选择 模型 type: 


* type=C-classification 

* type=nu-classification 
* type=one-classification 
* type=eps-regression 


* type=nu-regression 


3. 分 类 别 赋予 权重 


如 果 不 同类 别 间 的 大 小 是 严重 偏 斜 的 ， 则 占 多 数 的 类 别 会 在 建 模 时 处 于 支配 地 位 。 为 了 平衡 它 ， 我 们 也 许 想 为 不 同 的 类 别 赋 
予 不 相等 的 权重 而 不 是 默认 的 等 权重 。 我 们 可 使 用 参数 class.weights 来 做 : 


> mod <- svm(class = ., data = bn[t.idx,], class.weights=c("0"=0.3, 
"1"=0.7 ) ) 
参考 内 容 
2.577 
3.29% 


3.7 AARNE 


e1l071B PAS Sa FAT eh Biss Ss a naiveBayeseZN, 


ER ZR 


如 果 你 还 没有 安装 e1071 和 caret 包 ， 那 么 现在 安 沪 它 。 下 载 本 章 的 数据 文件 ， 然 后 确保 将 electronics-purchase.csv 这 个 文 
件 放 置 在 你 的 R 工 作 目 录 中 。 朴 素 贝 叶 斯 算法 要 求 所 有 变量 都 是 分 类 变量 。 因 此 ， 若 有 必要 ， 你 应 该 先 把 所 有 的 变量 转换 类 型 ， 
做 法 可 以 参考 1.12 节 。 


为 了 使 用 朴素 贝 叶 斯 方法 来 分 类 ， 请 遵循 以 下 步骤 


1) 载 和 e1071 和 caret 包 : 


> library (e1071) 


> library (caret) 


2) 读 取 数据 : 


> ep <- read.csv("electronics-purchase.csv") 


3) 将 数据 分 块 : 


> set.seed(1000) 


> train.idx <- createDataPartition(ep$Purchase, p = 0.67, list = 
FALSE) 


4) 建立 模型 : 


> epmod <- naiveBayes (Purchase ~ . , data = ep[train.idx, ] ) 


5) 查看 模型 : 


> epmod 


6) 为 验证 分 块 中 的 每 一 个 样本 做 预测 : 


> pred <- predict (epmod, epl-train.idx,]) 


7) 生成 并 碍 看 天 于 验证 分 块 的 误差/ 分 类 -混淆 矩阵 : 


> tab <- table(ep[-train.idx,]$Purchase, pred, dnn = c("Actual", 
"Predicted") ) 
> tab 
Predicted 
Actual No Yes 
No 1 I 
Yes 0 2 


工作 原理 


步骤 1 载 入 了 必 备 的 包 ， 步 骤 2 读 取 了 数据 ， 步 又 3 确定 了 训练 分 块 中 的 样本 所 对 应 的 行 号 (我 们 设 定 了 随机 数 种 子 ， 使 结 
与 我 们 展示 的 保持 一 致 ) 。 


步骤 4 使 用 naiveBayes0 函 数 建 模 ， 并 将 公式 和 训练 分 块 以 参数 的 形式 传递 到 冰 数 中 。 步 又 5 展示 了 naiveBayes() 遂 数 所 生成 
用 于 做 预测 的 条 件 概率 。 


CI 
UT 


步骤 6 用 模型 对 验证 分 块 做 预测 。 步 骤 7 构 造 了 如 图 3-10 所 示 的 误差 矩阵 。 
Naive Bayes Classifier for Discrete Predictors 


Call: 
naiveBayes. default(x=X, y=, laplace= laplace) 


one probabilities: _— A-priori probabilities of each class 


No Yes a 
0505 一 


Conditional probabilities: 
Education 
Y A B C 
No 0.5000000 0.3333333 00.1666667 
Yes 0.1666667 0.3333333 0.5000000 


i 


Gender 
Y F Mi P(Education=B | Purchase=Yes) 
No 0.5000000 0.5000000___ 
ibs 0.3333333 0.6666667 “sw 
Smart ph Å P(Gender=M | Purchase=No) 
Y N Y 
No 0.5 0.5 
Yes 0.5 0.5 
Tablet 
Y N Y 
No 0.1666667 0.3333333 
Yes 0.166666/ 0.8333333 
图 3-10 


a> FRO predict) aN Rime AED RSE ALD RAS MEA, ER table 0RR TiRED 


2.58 


3.8 用 K 最 近邻 分 类 
class 包 中 包括 了 用 于 K 最 近邻 分 类 的 knn 六 数 。 


ER MER 


URAL A eclassticarete,, PAMEREC. FRARI, ZAR evacation-trip-classification.csvix 
置 在 你 的 R 工 作 目 录 中 。knn 要 求 所 有 的 独立 预测 变量 都 是 数值 类 型 的 ， 并 且 因 变量 或 目标 变量 是 分 类 变量 。 因 此 ， 如 果 有 需 
要 ， 你 应 该 首先 转换 变量 类 型 。 具 体 做 法 可 以 参考 1.12 节 和 1.13 节 。 


为 了 用 K 最 近邻 方法 来 做 分 类 ， 请 遵循 以 下 步骤 。 
1) 载 入 class 和 caret 包 : 


> library (class) 
> library (caret) 


2) 读 取 数据 : 


> vac <- read.csv("vacation-trip-classification.csv") 


3) 将 预测 变量 Income 和 Family size 标 准 化 : 


> vacSIncome.z <- scale(vacSIncome) 
> vac$Family size.z <- scale(vac$Family size) 


4) 将 数据 分 块 。 对 于 knn 你 需要 3 个 分 块 : 


> set.seed(1000) 

> train.idx <- createDataPartition(vac$Result, p = 0.5, list = 
FALSE) 

> train <- vac[train.idx, | 

> temp <- vac[-train.idx, ] 

> val.idx <- createDataPartition(tempSResult, p = 0.5, list = 
FALSE) 


> val <- temp[val.idx, | 
> test <- temp[-val.idx, | 


5) 当 k=1 时 生成 验证 集 的 预测 结 


> predl <- knn(train[4:5], val[,4:5], train[,3], 1) 


6) 对 k=1 生 成 误差 矩阵 : 


> errmatl <- table(valSResult, predl, dnn = c("Actual", 
"Predicted") ) 


7) 对 多 种 k 值 重复 进行 上 述 过 程 ， 然 后 从 中 选择 最 佳 的 k 值 。 这 一 步 的 自动 化 处 理 请 查看 更 多 。 
8) 用 选择 出 的 最 佳 K 值 来 对 预测 分 块 中 的 样本 生成 预测 值 和 误差 矩阵 (在 以 下 代码 中 ， 我 们 假设 kK=1 是 最 佳 的 ) 
> pred.test <- knn(train[4:5], test[,4:5], train[,3], 1) 


> errmat.test = table(testS$Result, pred.test, dnn = c("Actual", 
"Predicted") ) 


工作 原理 
步骤 1~ 3 载 入 了 必需 的 包 和 数据 文件 。 


步骤 4 创建 了 三 个 分 块 (50%，25% 和 25%) 。 我 们 用 随机 数 种 子 来 使 结果 与 我 们 所 展示 的 保持 一 致 。 更 多 天 于 数据 分 块 的 


步骤 5 用 k=1 时 的 knn 消 数 来 生成 预测 值 。 这 里 只 使 用 了 标准 化 后 的 预测 变量 的 值 ， 即 train[,，4: 5] 和 val[，4: 5]。 


步骤 6 生成 了 k=1 时 的 误差 矩阵 。 


我 们 现在 转向 另外 一 些 使 用 KNN 分 类 的 方法 。 
1. 对 多 个 k 值 目 动 运行 KNN 过 程 
从 多 个 K 值 中 寻找 最 佳 值 需 要 重复 运行 多 次 几乎 一 样 的 代码 。 下 面 这 个 方便 的 函数 可 以 将 你 从 这 每 重 的 工作 中 解放 出 来 。 


knn.automate <- function (trg predictors, val predictors, trg target, 
val target, start k, end k) 


{ 
for (k in start k:end k) { 
pred <- knn(trg predictors, val predictors, 
trg target, k) 
tab <- table(val target, pred, dnn = c("Actual", "Predicted") ) 
cat (paste("Error matrix for k=", k,"\n")) 


Cat ("==========================\n") 
print (tab) 
cat ("-------------------------- \n\n\n" ) 


BS Kix Se, (RAL OIA ED ARPA PIS MAk=12k=7184F7knn: 
> knn.automate(train[,4:5], val[,4:5], train[,3], val[,3], 1,7) 
2. 用 KNN 计 算 原 始 概率 而 非 分 类 值 


当 我 们 用 KNN 对 样本 分 类 时 ， 其 背后 的 算法 使 用 了 一 个 简单 的 投票 来 决定 分 类 。 在 这 样 的 例子 中 ， 我 们 默认 所 有 的 误差 都 


同等 重要 。 然 而 ， 对 于 非 对 称 代价 的 情况 ， 即 当 我 们 准备 让 其 中 一 种 错误 比 另 一 种 更 加 易于 接受 时 ， 我 们 也 许 并 不 想 用 和 信 单 的 投 
票 来 决定 样本 所 属 的 类 别 。 取 而 代 之 的 ， 我 们 想得到 样本 属于 每 一 个 类 别 的 原始 概率 (比例 ) 并 选择 一 个 用 于 分 类 的 阶段 概率 。 
举 个 例子 ， 将 一 个 买 家 错误 归 类 为 非 买 家 的 代价 可 能 10 倍 于 将 一 个 非 买 家 错误 归 类 为 买 家 的 代价 。 因 此 一 个 简单 的 投票 会 要 求 
一 个 略 大 于 0.5 的 概率 值 。 

各 要 计算 原始 概率 而 不 是 分 类 ， 请 使 用 参数 prob=TRUE 例 如 : 


> predS w= knn(train[4:5], val[,4:5], train[,3], 5, prob=TRUE) 
> pred5 

[1] 1.0000000 0.8000000 1.0000000 0.6000000 0.8000000 

[6] 0.6000000 0.6000000 0.8333333 0.6000000 0.8333333 


Levels: Buyer Non-buyer 


3.9 ”用 人 利 经 网 络 分 类 


nnet 包 中 包含 了 可 用 神经 网 络 来 做 分 类 的 nnet 国 数 。 
准备 就 绪 


如 果 你 还 没有 安 半 nnet 和 caret 包 ， 那 么 现在 安 疼 它 。 下 载 本 章 的 数据 文件 ， 然 后 确保 将 banknote-authentication.csv 这 
个 文件 放置 在 你 的 R 工 作 目 录 中 。 我 们 将 class 作 为 我 们 的 目标 变量 或 输出 变量 ， 所 有 其 他 的 变量 作为 预测 变量 。 神 经 网 络 模型 要 
求 所 有 的 自 变量 /预测 变量 为 数值 类 型 ， 且 因 变 量 或 输出 变量 为 0-1 型 。 然 而 ， 生 成 哑 变 量 (用 于 对 比 ) 和 正确 处 理 分 类 型 输出 变 
量 的 工作 都 可 以 由 nnet 消 数 完 成 。 


要 使 用 神经 网 络 来 分 类 ， 请 遵循 以 下 步骤 : 
1) 载 入 nnet 和 caret 包 : 


> library (nnet) 
> library (caret) 


2) 读 取 数 据 : 


> bn <- read.csv("banknote-authentication.csv") 


3) 将 输出 变量 转换 为 因子 : 


> bnsclass <- factor(bnSclass) 


4) 为 数据 分 块 。 预 测 变量 已 经 是 数值 型 的 了 ， 输 出 变量 class 也 已 经 是 0-1 型 ， 因 此 我 们 不 需要 再 做 任何 数据 准备 工作 。 参 
考 2.5 书 理解 以 下 命令 的 细节 : 


> train.idx <- createDataPartition(bn$class, p=0.7, list = FALSE) 


5) 建立 神经 网 络 模型 


> mod <- nnet (class ~., data=bn[train.idx,],size=3,maxit=10000,dec 
中 Dane = 8.05) 


6) 用 模型 来 预测 验证 分 块 : 
> pred <- predict(mod, newdata=bn[-train.idx,], type="class") 
7) ASSUMED IRE WF ERRAN RAAE : 


> table (bn[-train.idx,]$class, pred) 


工作 原理 


步 又 1 载 入 了 所 需 的 包 ， 步 又 2 读 取 了 数据 。 
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步骤 3 将 输出 变量 转换 为 因子 。 对 于 用 nnet 来 施行 分 类 的 过 程 ， 我 们 需要 输出 变量 是 一 个 因子 。 如 果 你 的 预测 变量 是 用 数值 
形式 保存 的 分 类 变量 ， 则 将 它们 转换 为 因子 以 便 nnet 可 以 正确 处 理 它们 。 由 于 只 有 数 信 型 的 预测 变量 ,我 们 束 不 需要 对 它们 做 
任何 处 理 。 


步骤 4 将 数据 分 块 。 这 一 步 可 以 参考 2.5 市 。 
步骤 5 建 六 了 神经 网 络 模 型 。 我 们 将 公式 和 数据 集 作为 前 两 个 参数 传递 给 模型 。 


size 参数 指定 了 内 部 层 中 单元 的 数量 (nnet 只 用 一 个 隐藏 层 ) 。 一 个 粗略 的 估计 方法 是 将 隐藏 层 中 单元 的 数量 设置 为 输入 
层 单元 数量 和 输出 层 单元 数量 的 均值 。 更 大 的 值 会 得 到 更 好 的 结果 ,但 代价 是 计算 时 间 会 变 得 更 长 。 


-maxit 参 数 指定 了 算法 为 了 收敛 而 做 的 最 大 和 迭代 次 数 。 如 果 在 达到 这 个 限制 之 前 就 收敛 了 则 先 代 停止 ， 否 则 算法 会 在 达到 
He KIB KAME Eo 


:decay 和 参数 用 来 控制 过 度 拟 合 。 
步骤 6 使 用 模型 生成 验证 分 块 上 的 预测 值 ， 我 们 用 type= "class" 得 到 分 类 值 。 


步骤 7 生成 误 关 /分 类 -混淆 矩阵 。 


我 们 接 下 来 讨论 如 何 更 好 地 控制 模型 搭建 和 预测 的 过 程 。 
1. 更 好 地 控制 nnet 


使 用 以 下 额外 选项 : 
na.action: 默认 情况 下 ， 任 何 缺 失 值 都 会 引起 函数 运行 失败 ， 你 可 以 指定 naaction=na.omit 来 排除 包含 缺失 值 的 样本 。 
- 使 用 参数 skip=TRUE 添 加 从 输入 节点 到 输出 节点 的 直接 连接 。 


` 使 用 参数 tang 来 指定 初始 随机 权重 的 范围 Ftang，tang， 如 果 输 入 值 很 大 ， 选 择 能 令 tangx (max|vatiable|) 接近 于 1 的 权重 范 


2. 得 到 原始 概率 


用 type= "raw "选项 来 生成 原始 概率 : 


> pred <- predict (mod, newdata=bn[-train.idx,] type="raw") 


3.10 ”用 线性 判别 函数 分 类 


MASS 包 中 包含 了 用 线性 判别 分 析 阅 数 来 分 类 的 lda 销 数 。 
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RRNA SEMASSHcaret,, PAMEREE. KARNAGE SH, Ali banknote-authentication.csvix 
个 文件 放置 在 你 的 R 工 作 目 录 中 。 我 们 会 用 class 作 为 我 们 的 目标 或 输出 变量 ， 所 有 其 他 变量 为 预测 变 


要 使 用 绪 性 判别 为 数 来 分 类 ， 请 遵循 以 下 步骤 : 
1) 载 入 MASS 和 caret 包 : 


> library (MASS) 
> library (caret) 


2) 读 取 数 据 : 


> bn <- read.csv("banknote-authentication.csv") 


3) 将 输出 变量 转换 为 因子 : 


> bnSclass <- factor(bnSclass) 


4) 为 数据 分 块 。 预 测 变量 已 经 是 数值 型 的 了 ， 输 出 变量 class 也 已 经 是 0-1 型 的 了 ， 所 以 我 们 不 需要 再 对 数据 做 任何 准备 工 
作 。 右 对 下 面 的 命令 细节 有 任何 疑问 ， 请 参考 2.5 节 。 


> set.seed(1000) 
> t.idx <- createDataPartition(bn$class, p = 0.7, list=FALSE) 


5) 建立 线性 判别 函数 模型 


> ldamod <- lda(bn[t.idx, 1:4], bn[t.idx, 5]) 


6) 检查 模型 在 训练 分 块 上 的 表现 (由 于 随机 分 块 的 不 同 ， 你 的 结果 会 不 一 样 ) : 


> bn[t.idx,"Pred"] <- predict (ldamod, bn[t.idx, 1:4])S$class 
> table(bn[t.idx, "class"], bn[t.idx, "Pred"], din = c("Actual", 
"Dredicted") ) 


Predicted 
Actual 0 1 

0 511 23 

1 0 427 


7) 在 验证 分 块 上 生成 预测 值 并 检查 预测 表现 (你 的 结果 可 能 会 不 一 样 ) : 


> bn[-t.idx,"Pred"] <- predict(ldamod, bn[-t.idx, 1:4])$class 
> table(bn[-t.idx, "class"], bn[-t.idx, "Pred"], dnn = c("Actual", 
"Predicted") ) 
Predicted 
Actual 0 1 
0 219 9 
1 0 183 


工作 原理 


步骤 1 载 入 了 MASS 和 caret 包 ， 步 又 2 读 取 了 数 气 。 


步骤 3 将 输出 变量 转换 为 因子 。 


步骤 4 分 割 了 数据 。 我 们 设置 了 随机 数 种 子 使 你 能 得 到 跟 我 们 一 致 的 结果 。 


步骤 5 建立 了 线性 判别 函数 模型 。 我 们 将 预测 变量 传递 为 da 函数 中 的 第 一 个 参数 。 输 出 变量 传递 为 lda 函 数 中 的 第 二 个 参 
数 。 我 们 也 可 以 用 一 个 公式 来 提供 这 些 细 书 一 一 参考 接 下 来 的 “更 多 细 证 ”。 


步骤 6 使 用 了 predict 函 数 为 训练 分 块 做 预测 。 我 们 传递 了 模型 和 预测 变量 。predict 阔 数 的 返回 对 象 中 的 class 组 件 包 合 了 预 
测 出 的 类 别 值 。 然 后 我 们 用 table 函 数 得 到 一 个 双向 交叉 表 。 


步骤 7 通过 重复 以 上 两 步 来 评估 模型 在 验证 分 块 上 的 表现 。 


lda 函 数 有 一 些 可 选 参数 ， 我 们 已 经 展示 了 其 中 最 常用 的 一 些 参数 。 


使 用 公式 形式 的 Ida 


除了 直接 将 预测 变量 和 输出 指定 为 两 个 单独 的 参数 ， 我 们 也 可 以 把 步骤 5 改写 为 : 


> ldamod <- lda(class ~ ., data = bn[t.idx, ]) 


3.11 用 逻辑 回归 分 类 


stats 包 中 包括 了 glm 函 数 ， 可 将 逻辑 回归 用 于 分 类 。 
准备 就 绪 


如 果 你 还 没有 安 六 caret 包 ， 那 么 现在 安 竣 它 。 下 载 本 草 的 数据 文件 ， 然 后 确保 将 boston-housing-logistic.csv 这 个 文件 放 
置 在 你 的 R 工 作 目 录 中 。 我 们 会 用 CLASS 作 为 我 们 的 目标 或 输出 变量 。 所 有 其 他 变量 都 作为 预测 变量 ， 我 们 的 输出 值 是 0 或 1， 其 
中 0 代表 周围 房价 的 中 位 数 较 低 ，1 代 表 周 围 房价 的 中 位 数 较 局 。 逻 辑 回 归 要 求 所 有 的 目 变 量 /预测 变量 都 是 数值 型 的 ， 并 且 因 变 
量 或 输出 是 二 分 类 变量 。 不 过 glIm 消 数目 己 会 处 理 为 分 类 变量 创建 哑 变 量 的 工作 。 


要 使 用 逻辑 回归 来 做 分 类 ， 请 遵循 以 下 步骤 : 
1) 载 入 caret 包 .: 
> library (caret) 
2) 读 取 数据 : 
> bh <- read.csv("boston-housing-logistic.csv") 


3) 将 输出 变量 转换 为 因子 : 


> bhSCLASS <- factor(bhSCLASS, levels = c(0,1)) 


4) 为 数据 分 块 。 预 测 变量 已 经 是 数值 型 的 了 ， 输 出 变量 CLASS 也 已 经 是 0-1 型 ， 因 此 我 们 并 不 需要 再 做 任何 数据 准备 工 
作 。 天 于 下 列 命令 的 细节 ， 请 参考 2.5 节 。 


> set.seed(1000) 
> train.idx <- createDataPartition(bh$SCLASS, p=0.7, list = FALSE) 


5) 建立 逻辑 回归 模型 : 


> logit <- glm(CLASS~., data = bh[train.idx,], family=binomial) 


6) 查看 模型 (你 的 结果 可 能 会 因数 据 的 随机 分 块 的 不 同 而 不 同 ) : 


> summary (logit) 
Call: 
glm(formula = CLASS ~ ., family = binomial, data = bh[train.idx, 
] ) 


Deviance Residuals: 
Min 10 Median 30 Max 
-2.2629 -0.3431 0.0603 0.3251 3.3310 


Coefficients: 
Estimate Std. Error z value Pr(>|z]) 


(Intercept) 33.452508 4.947892 6.761 1.37e-11 *** 
NOX S31 6.355135 -4.937 7.92e-07 *** 
DIS -0.634391 0:196799 -3.224 0.00127 ** 
RAD 0.259893 0.087275 2.978 0.00290 ** 
TAX -0.007966 0.004476 -1.780 0.07513 . 
PTRATIO -0.827576 0.138782 -5.963 2.4Je-09 *** 
B 0.006798 0.003070 2.214 0.02680 * 
Siqnir: codes: G TEREF PODI re 0.04 EF 0.05 Mor O21 F T 1 


(Dispersion parameter for binomial family taken to be 1) 
Null deviance: 353.03 on 254 degrees of freedom 
Residual deviance: 135.08 on 248 degrees of freedom 


AIC: 149.08 


Number of Fisher Scoring iterations: 6 
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计算 验证 分 块 中 样本 的 “成 功 ”概率 并 保存 为 变量 PROB_SUCC: 


> bh[-train.idx,"PROB SUCC"] <- predict (logit, newdata = bh[- 
train.idx,], type="response") 


8) 用 0.5 的 阶段 概率 将 样本 分 类 : 


> bh[-train.idx,"PRED 50"] <- ifelse(bh[-train.idx, "PROB SUCC"] >= 
One, Ty a) 


9) ENIRA/DA BIS (你 的 结果 可 能 会 不 一 样 ) : 


> table(bh[-train.idx, "CLASS"], bh[-train.idx, "PRED 50"], 
dnn=c("Actual", "Predicted") ) 7 
Predicted 
Actual 0 1 
0 42 9 
1 10 47 


工作 原理 


步骤 1 载 入 caret 包 ， 步 又 2 读 取 了 数据 文件 。 


步骤 3 将 输出 变量 转换 成 因子 。 当 输出 变量 是 一 个 因子 时 ，glm 函 数 会 将 其 第 一 个 因子 水 平 看 做 “失败 ”， 将 其 他 水 平视 
“成 功 ”。 在 这 个 例子 中 ， 我 们 想 让 它 把 "0" 看 作 和 失败 而 把 "1" 视 为 成 功 。 为 了 强制 让 0 成 为 第 一 个 水 平 〈( 即 “失败 ”) ， 我 们 
通过 levels=c (0, 1) 指定 了 因子 的 水 平 。 


SE 


步骤 4 创建 了 数据 分 块 (我 们 设置 了 随机 数 种 子 ， 使 结果 应 该 与 我 们 所 展示 的 一 致 ) 。 
步骤 ?建立 了 逻辑 回归 模型 并 保 仓 为 logit 变 量 。 请 注意 我 们 已 经 指定 这 里 的 数据 时 训练 分 块 中 的 那些 样本 。 


步骤 6 展示 了 这 个 模型 的 重要 信息 。Deviance Residuals: 这 一 块 给 出 的 是 对 数 成 败 比率 而 非 概率 值 的 变异 分 布 信息 。 
coefficients 这 一 部 分 显示 出 所 有 用 到 的 系数 都 是 统计 意义 上 显著 的 。 


步骤 7 使 用 我 们 的 逻辑 回归 模型 logit 来 生成 验证 分 块 中 的 样本 的 概率 。 这 里 没有 一 个 直接 的 销 数 能 用 这 个 logit 模 型 做 分 类 。 
这 就 是 我 首先 通过 指定 type="response" 来 生成 概率 的 原因 。 


步骤 8 用 0.5 的 截断 概率 将 样本 分 类 。 可 以 按照 不 同类 别 的 相对 误 分 类 损失 来 选择 一 个 不 同 的 截断 值 。 


步骤 9 为 之 前 的 分 类 结果 生成 了 误 甘 /分 类 - 混 消 和 矩阵。 


3.12 ”用 AdaBoost 来 整合 分 类 树 模型 

R 中 有 几 个 包 可 以 执行 增强 算法 。 这 个 方法 让 我 们 将 很 多 相对 不 精确 的 模型 组 合 起 来 得 到 一 个 相对 精确 的 模型 ，ada 包 就 提 
供 了 基于 分 类 树 的 增强 算法 ， 
准备 就 绪 


如 果 你 还 没有 安装 ada 和 caret 包 ， 那 么 现在 安装 它 。 下 载 本 章 的 数据 文件 ， 然 后 确保 将 banknote-authentication.csv 这 个 
文件 放置 在 你 的 R 工 作 目录 中 。 我 们 会 把 class 用 作 我 们 的 目标 变量 或 分 类 变量 ， 所 有 其 他 变量 作为 预测 变量 。 


要 使 用 AdaBoost 来 整合 分 类 树 模型 ， 请 遵循 以 下 步骤 : 
1) 载 入 caret 和 ada 包 : 


> library (caret) 
> library (ada) 


2) 读 取 数 据 : 


> bn <- read.csv("banknote-authentication.csv") 


3) 将 outcome 变 量 的 类 型 转换 为 因子 : 


> bnSclass <- factor(bnSclass) 


4) 创建 分 割 |: 


> set.seed(1000) 
> t.idx <- createDataPartition(bn$class, p=0.7, list=FALSE) 


5) 创建 rpart.control 对 象 : 


> cont <- rpart.control () 


6) 建立 模型 : 


> mod <- ada(class ~ ., data = bn[t.idx,], iter=50, loss="e", 
type="discrete", control = cont) 


7) 查看 模型 结果 。 显 示 结 果 包 含 了 训练 集 上 的 误差 /分 类 -混淆 算 阵 以 及 其 他 信息 (由 于 随机 分 割 的 原因 ， 你 得 到 的 结果 可 
能 会 跟 这 里 展示 的 不 一 样 ) 。 


> mod 
Call: 
ada (class = ., data = bn[t.idx, ], iter = 50, loss = "e"; type = 
"discrete", 
control = cont) 
Loss: exponential Method: discrete Iteration: 50 


Final Confusion Matrix for Data: 
Final Prediction 


True value 0 1 
0 534 0 
1 0 427 


Train Error: 0 
Out-Of-Bag Error: 0.002 iteration= 49 
Additional Estimates of number of iterations: 


train.errl train.kapl 
33 33 


8) 在 验证 分 块 上 生成 预测 值 : 


> pred <- predict(mod, newdata = bn[-t.idx,], type = "vector") 


9) EMEN REEERE iB SAE : 


> table(bn[-t.idx, "class"], pred, dnn = c("Actual", "Predicted") ) 


工作 原理 


步骤 1 载 入 了 必需 的 caret 和 ada 包 . 
步骤 2 读 取 了 数据 。 

步骤 3 将 输出 变量 转换 为 因子 ， 因 为 我 们 将 要 应 用 分 类 手段 。 

步骤 4 创建 分 割 (我 们 设置 了 随机 数 种 子 ， 这 样 你 的 结果 应 该 与 我 们 所 展示 的 一 致 ) 。 


ada 闵 数 会 使 用 rpart 函 数 生成 多 棵 分 类 树 。 为 此 它 需 要 我 们 提供 一 个 rpart.control 对 象 。 步 又 5 创建 了 一 个 默认 的 
rpart.control 对 象 。 
步骤 6 建立 了 AdaBoost 模 型 。 我 们 将 公式 和 数据 框 传递 给 模型 并 输入 type= "discrete "来 指定 模型 的 类 型 是 分 类 而 非 回 归 。 
另外 ， 我 们 也 指定 了 增强 迭代 的 次 数 上 限 以 及 增强 算法 所 采用 的 损失 函数 为 指数 损失 消 数 loss="e"。 


步骤 7 展示 了 模型 。 
步骤 8 在 验证 分 块 上 生成 了 预测 值 。 步 骤 9 建 立 了 误差 /分 类 - 混 泣 算 阵 。 


第 4 章 ”给 我 一 个 数 一 一 回归 分 析 


很 多 情况 下 ， 数 据 分 析 师 试 着 用 数值 化 预测 和 回归 技术 来 得 到 某 个 数值 。 例 如 ， 某 个 产品 的 未 来 销量 ， 某 家 银行 下 个 月 收 到 
的 存款 量 ， 某 本 书 的 销量 ， 某 辆 二 手 车 的 预计 售 价 。 本 章 涵 芋 了 一 些 用 R 来 运用 回归 技术 的 万 法 。 


第 4 章 ”给 我 一 个 数 一 一 回归 分 析 


很 多 情况 下 ， 数 据 分 析 师 试 着 用 数值 化 预测 和 回归 技术 来 得 到 某 个 数值 。 例 如 ， 某 个 产品 的 未 来 销量 ， 某 家 银行 下 个 月 收 到 
某 本 书 的 销量 ， 某 辆 二 手 车 的 预计 售 价 。 本 章 泣 荔 了 一 些 用 R 来 运用 回归 技术 的 方法 。 


的 存 球 量 ， 


42 ”计算 均 方 根 误 


你 可 以 建立 一 个 回归 模型 并 希望 通过 比较 模型 的 预测 值 和 真实 值 来 评估 模型 。 通 党 你 会 在 训练 数据 集 上 评估 模型 的 表现 ， 但 
一 个 客观 的 衡量 依赖 于 模型 在 保留 数据 集 上 的 表现 。 


ER MEA 


如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 rmse.csv 文 件 放置 于 你 的 R 工 作 目录 中 。 这 个 文件 包含 了 一 组 真实 
价格 和 一 组 基于 某 个 回归 方法 的 预测 价格 。 我 们 会 计算 这 个 预测 值 的 均 方 根 (Root Mean Squard, RMS) RÆ, 


当 使 用 回归 技术 时 ， 能 够 生成 预测 值 ， 本 方法 会 癌 你 展示 在 给 定 输出 变量 的 预测 值 和 真实 值 时 ， 如 何 计算 均 方 根 误差 : 


1) 用 如 下 命令 计算 RMS9 误 差 : 


> dat <- read.csv("rmse-example.csv") 
> rmse <- sqrt (mean( (dat$price-dat$pred) *2) ) 


> rmse 
[1] 2.934995 


2) 绘制 结果 并 显示 45 度 线 : 


> plot (datsprice, datspred, xlab = "Actual", 
ylab = "Predicted") 
> abline(O, 1) 


有 前述 命令 的 输出 如 图 4-1 所 示 。 
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工作 原理 


步骤 1 根据 定义 (误差 的 平方 的 均值 的 平方 根 ) 计算 了 RM 误差。 这 个 dat$price-dat$pred 表 达 式 计算 了 误差 向 量 ， 包 含 
着 它 的 代码 计算 了 误差 的 平方 根 的 均值 ， 然 后 得 到 了 它 的 平方 根 。 


步骤 2 生成 了 标准 的 散 点 图 ， 并 添加 了 一 条 45 度 线 。 
更 多 细节 

由 于 我 们 经 单 要 计算 RM 误差， 下 面 的 方法 是 很 有 用 的 。 
使 用 一 个 计算 RM SS 误差 的 便捷 函数 

当 我 们 需要 计算 RMS 误 差 时 ， 以 下 消 数 是 很 方便 的 : 


rdacb.rmse <- function(actual, predicted) { 
return (sqrt (mean ((actual-predicted) *2) ) ) 
} 


meee SIX SEE, FATA LAX HARMSE: 


> rmse <- rdacb.rmse(datS$price, datS$pred) 


4.3 ”建立 用 于 回归 的 KNN 模 型 


FNN 包 提供 了 一 些 必要 的 冰 数 来 利用 KNN 技 术 做 回归 。 在 本 方法 中 我 们 用 knn.reg 消 数 来 建立 模型 并 用 它 来 做 了 预测。 我 们 
也 会 展示 一 些 使 这 一 过 程 更 加 轻松 的 额外 的 、 方 便 的 近 巧 。 
准备 束 绪 


如 果 你 还 没有 安 流 FNN、dummies、caret 和 scales 包 ， 那 么 现在 去 安 涂 它们 。 如 果 你 还 没有 下 载 本 草 的 数据 文件 ， 现 在 去 
下 载 并 确保 将 education.csv 文 件 放 置 于 你 的 R 工 作 目 录 中 。 这 个 文件 包含 了 美国 几 个 学 区 的 数据 。 表 4-1 搞 述 了 文件 中 的 变量 。 


表 4-1 
state 美国 各 州 编号 
region 各 州 所 属 的 区 域 (1= 东北 … ) 
urban 1970 年 城区 每 千 人 中 市 民 数 量 
income 1973 年 人 均 收 入 
under18 1974 年 每 千 人 中 小 于 18 岁 的 人 口 数 量 
expense 1975 年 各 州 人 均 教 育 文 出 


我 们 将 会 建立 一 个 用 于 预测 expense (费用 ) 的 knn 模 型 ， 该 模型 基于 除了 state ( 州 ) 之 外 的 所 有 预测 变量 。 


为 了 建立 用 于 回归 的 KNN 模 型 ， 请 遵循 以 下 步骤 : 
1) 载 入 dummies、FNN、scales 和 caret 包 ， 如 下 所 示 : 


> library (dummies) 
> library (FNN) 
> library (scales) 


2) 读 取 数据 : 
> educ <- read.csv("education.csv") 


3) 为 分 类 变量 region 创 建 哑 变 量 ， 并 将 它们 添加 到 educ: 


> dums <- dummy (educsregion, sep=" ") 
> educ <- cbind (educ, dums) 


4) 因为 KNN 会 使 用 距离 计算 ， 我 们 应 该 将 预测 变量 重 缩放 或 者 标准 化 。 在 这 个 例子 中 ， 我 们 有 三 个 数值 型 预测 变量 和 一 个 
分 类 型 预测 变量 ,其 中 ， 分 类 型 预测 变量 是 以 三 个 哑 变 量 的 形式 存在 的 。 将 哑 变 量 标准 化 的 过 程 很 令 人 费解 ， 因 此 我 们 选择 将 数 
值 型 变量 缩放 人 至 [0，1] 区 间 ， 并 且 哑 变量 保持 不 变 (因为 它们 已 经 在 [0，1] 区 间 中 了 ) . 


> educSurban.s <- rescale (educSurban) 
> educSincome.s <- rescale(educSincome) 
> educSunderl18.s <- rescale (educSunder18) 


5) 创建 三 个 分 块 〈 因 为 我 们 创建 了 随机 分 块 ， 你 的 结果 可 能 会 不 一 样 ) : 


> set.seed(1000) 

> t.idx <- createDataPartition(educSexpense, p = 0.6, 
list = FALSE) 

> trg <=- educ([t.idx, ] 

> rest <- educ[-t.idx, ] 

> set.seed (2000) 

> v.idx <- createDataPartition(rest$Sexpense, p=0.5, 
list=FALSE) 

> val <- rest[v.idx, ] 

> test <- rest[-v.idx, ] 


6) 对 几 个 k 值 建立 模型 。 在 下 面 的 代码 中 ， 我 们 展示 了 如 何 计算 RMS 误 差 。 你 也 可 以 使 用 更 加 方便 的 rdacb.rmse 函 数 ， 我 
们 已 经 在 4.2 节 中 展示 了 它 : 


> # for k=1 


2 real w= kun. reoteral, Ta wall la Eraqb Si; A, 
algorithm="brute") 


> rmsel = sqrt (mean((resl$pred-val[,6])%*2) ) 
> rmsel 


[1] 59.66909 


> # Alternately you could use the following to 

> # compute the RMS error. See the recipe 

> # "Compute the Root Mean Squared error" earlier 
> # in this chapter 

> rmsel = rdacb.rmse(resilSpred, val[,6]) 

=F ere kee 


so Bees a Frm resiko: 7212), Wall, 7212). trall 2, 
algorithm="brute") 


> rmse2 = sqrt (mean((res2$pred-val[,6])%*2) ) 
> rmse2 


[1] 38.09002 


># for k=3 

> res3 <- knn.reg(trg[, 7:12], vall,7:12], trg[,6], 3, 
algorithm="brute") 

> rmse3 = sqrt (mean((res3$pred-val[,6])%*2) ) 


> rmse3 
LE 44.21224 


> # for k=4 

> res4 <- knn.reg(trg[, 7:12], val[,7:12], trg[,6], 4, 
algorithm="brute") 

> rmse4 = sqrt (mean((res4$pred-val[,6])%*2) ) 


> rmse4 


(a) SL GS 


7) 在 k=2 时 ， 我 们 得 到 了 最 小 的 RM 误差 。 用 如 下 方法 在 测试 分 块 上 评估 模型 


> res.test <- knn.reg(trg[, 7:12], test[,7:12], trg[,6], 2, 
algorithm="brute") 
> rmse.test = sqrt (mean((res.test$pred-test[,6])%*2)) 


rmse.test 


[1] 35.05442 


我 们 在 测试 分 块 上 得 到 的 RMS 误 差 远 比 在 验证 分 块 上 得 到 的 RMS 误 差 要 小 。 当 然 ， 由 于 我 们 的 数据 集 很 小 ， 这 个 结果 的 可 
信和 度 并 不 很 高 。 
工作 原理 

步 又 1 载 入 了 必需 的 包 ， 步 又 2 读 取 了 数据 。 


由 于 KNN 要 求 所 有 预测 变量 是 数值 型 的 ， 步 骤 3 用 dummies 包 中 的 dummy 函 数 来 为 分 类 变量 region 生 成 哑 变 量 ， 然 后 将 这 
些 哑 变量 添加 到 educ 数 据 框 中 。 

步骤 4 用 scales 包 中 的 rescale 函 数 将 数值 型 预测 变量 缩放 至 [0，1] 区 间 。 另 一 个 选择 是 将 数值 型 预测 变量 标准 化 ， 但 是 对 于 
哑 变 量 来 说 ， 标 准 化 的 过 程 很 令 人 费解 。 一 些 分 析 师 将 数值 型 预测 变量 标准 化 而 将 哑 变 量 保持 不 变 。 然 而 ， 为 了 一 致 性 ， 我 们 选 
择 了 将 所 有 预测 变量 缩放 至 [0，1] 区 间 。 由 于 哑 变 量 已 经 在 这 个 区 间 中 ， 我 们 只 需要 缩放 其 他 变量 。 

步骤 5 创建 了 KNN 所 需 的 三 个 分 块 。 我 们 设 定 了 随机 数 种子 以 使 结果 与 我 们 所 展示 的 结果 一 致 。 更 多 细节 请 查看 第 2 章 。 
为 我 们 的 数据 只 包含 50 个 样本 ， 我 们 只 能 选择 将 其 近似 地 分 割 成 60%、20% 和 20%。 除 了 创建 三 个 分 块 ， 我 们 也 可 以 用 两 个 分 
块 并 应 用 留 一 交叉 验证 法 。 我 们 会 在 后 面 详细 讨论 它 。 


步骤 6 对 k=1~k=4 的 情况 建立 了 模型 。 我 们 只 使 用 了 四 个 哑 变 量 中 的 三 个 ， 它 使 用 了 knn.reg 函 数 并 将 下 列 变 量 传递 为 参 


- 用 于 训练 的 预测 变量 。 

- 用 于 验证 的 预测 变量 。 

:训练 分 块 中 的 输出 变量 。 

“下 的 值 。 

- 计算 距离 时 所 用 的 工法。 我们 指定 了 brute 来 使 用 brute-force 方 法 。 

Qiz 当 数 据 集 很 大 时 ， 其 他 的 选择 如 kd_tree 或 covet_ttee 可 能 会 运行 得 更 快 。 

步骤 6 中 包含 了 高 度 重 复 的 代码 。 因 此 下 面 会 给 出 一 个 简便 的 冰 数 ， 用 一 条 命令 得 出 所 有 的 绪 
生成 的 模型 中 包含 了 几 个 组 件 。 为 了 计算 RMS 误 差 ， 我 们 使 用 了 pred 组 件 ， 它 包含 了 预测 值 。 


步骤 7 对 测试 分 块 重复 了 这 个 过 程 。 


现在 我 们 讨论 运行 KNN 的 几 个 变 体 。 
1. 在 KNN 中 用 交叉 验证 法 蔡 换 验证 分 块 


我 们 在 前 述 代码 中 使 用 了 三 个 分 块 。 一 种 不 同 的 处 理 万 法 是 使 用 两 个 分 块 。 在 这 种 情况 下 ，knn.reg 会 使 用 留 一 交叉 验证 法 
对 训练 分 块 中 的 每 一 个 样本 做 预测 。 为 了 使 用 这 种 模式 ,我 们 只 需要 将 训练 分 块 传递 为 参数 并 将 其 他 分 块 留 作 NULL 值 。 在 前 述 
方法 的 第 1~4 步 之 后 ， 运 行 如 下 命令 : 


> t.idx <- createDataPartition(educSexpense, p = 0.7, 
list = FALSE) 

> Erg <- educ([t.idx, ] 

> val <- educ[-t.idx, ] 

> resili <- knn.reg(trg[,7:12], test = NULL, y = trg[,6l, 
k=2, algorithm="brute") 

> # When run in this mode, the result object contains 
> # the residuals which we can use to compute rmse 

> rmse <- sqrt (mean(resl$residuals%2) ) 

> # and so on for other values of k 


2. 用 一 个 简便 的 函数 来 运行 CNN 


我 们 通 弟 运行 ANN 并 计算 RM 9 误 关 。 下 面 这 个 简便 的 邹 数 对 我 们 很 有 帮助 : 


rdacb.knn.reg <- function (trg predictors, val predictors, 
trg target, val target, k) { 


library (FNN) 
res <- knn.reg(trg predictors, val predictors, trg target, 
Kz, algorithm = "brute") 


errors <- resSpred - val target 

rmse <- sqrt(sum(errors * errors) /nrow(val_ predictors) ) 

cat (paste ("RMSE for k=", toString(k), ":", sep = ""), rmse, 
" io" ) 


rmse 


有 了 上 面 这 个 函数 ， 我 们 就 可 以 在 读 入 数据 、 创 建 哑 变 量 、 重 缩放 预测 变量 和 数据 分 块 一 一 即 主 方法 中 的 第 1~4 步 之 后 执行 
下 列 命 令 : 


> set.seed(1000) 

> t.idx <- createDataPartition(educSexpense, p = 0.6, list = FALSE) 
> trg <- educ([t.idx, ] 

> rest <- educ[-t.idx, ] 

>set.seed (2000) 

> v.idx <- createDataPartition(restSexpense, p=0.5, list=FALSE) 

> val <- rest[v.idx, ] 

> test <- rest[-v.idx, ] 

> thach kn reg (tra, 712, wall, Jei2l,. trol,6], Valis]; 2) 


RMSE for k=1: 59.66909 
[1] 59.66909 
> danh. km regiergi; 72121, wall, ela rqgl fl walle, 2) 


RMSE for k=2: 38.09002 
[1] 38.09002 


> # and so on 


3. 用 一 个 简便 的 函数 来 运行 多 个 K 值 下 的 KNN 模 型 


在 多 个 k 值 下 运行 KNN 来 选择 最 好 的 一 个 k 值 ， 这 一 过 程 包含 了 反复 执行 高 度 相似 的 代码 。 我 们 可 以 通过 一 个 遂 数 和 目 动 完 成 
这 些 工 作 。 这 个 简便 的 函数 对 多 个 k 值 运行 knn， 报 告 每 一 个 模型 的 RM 3 误差 ， 并 绘制 RMS 误 差 的 碎 石 图 : 


rdacb.knn.reg.multi <- function (trg predictors, val predictors, trg 
target, val target, start k, end k) 
{ 
rms errors <- vector () 
for (k in start k:end k) { 
rms error <- rdacb.knn.reg(trg predictors, val predictors, 
trg target, val target, k) 
rms errors <- c(rms errors, rms error) 


} 


plot (rms errors, type = "o", xlab = "k", ylab = "RMSE") 


| 
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列 命令 。 这 段 代码 对 k (k=1, 2, 3, 4, 5) 运行 knn.reg: 


> raach.kmn- red. matt (trea 712]; VaL; TIA]; Thel; Vatis]; 1, 5) 


RMSE for k=1: 59.66909 
RMSE for k=2: 38.09002 
RMSE for k=3: 44.21224 
RMSE for k=4: 51.66557 
RMSE for k=5: 50.33476 


上 述 代码 同时 绘制 了 RM 9 误差 的 碎 石 图 ， 如 图 4-2 所 示 。 


44 ”运用 线性 回归 


在 本 节 ， 我 们 将 讨论 线性 回归 ， 一 种 最 广 为 使 用 的 技术 。stats 包 具有 线性 回归 的 功能 并 且 R 会 在 启动 时 自动 载 入 它 。 
EMER 


如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 auto-mpg.csv 和 存放 在 你 的 R 工 作 目 录 中 。 安 装 caret 包 (如 果 你 还 


未 安装 ) 。 我 们 想 要 基于 cylinders、displacement、horsepower、weight， 以 及 acceleration 这 几 个 变量 来 预测 mpg 变 量 。 


要 怎么 做 
要 运用 线性 回归 ， 请 遵循 以 下 步骤 : 
1) 载 入 caret 包 : 


> library (caret) 
2) 读 取 数 据 : 
> auto <- read.csv("auto-mpg.csv") 


3) 将 分 类 变量 cylinders 转 换 为 因子 ， 并 对 各 个 水 平 合理 地 重合 


> autoScylinders <- factor(autoScylinders, 
人 
"6cyl", "Sey" ) } 


A) 创建 数据 分 块 : 
> set.seed(1000) 


> t.idx <- createDataPartition(autoSmpg, p = 0.7, 
list = FALSE) 


5) BaQUMEPS RSNA: 


> names (auto) 


[ T ] W No " " mpg " 
[3] "cylinders" "displacement" 
[5] "horsepower" "weight" 


[7] "acceleration" "model year" 


[9] "car name" 


6) 建立 线性 回归 模型 : 
> mod <- lm(mpg ~ ., data = auto[t.idx, -c(1,8,9)]) 


7) 查看 基本 结果 (你 的 结果 会 因为 分 块 时 随机 抽样 的 不 同 而 不 同 ) : 


> mod 


Call: 
Ilm(formula = mpg = ., data = auto[t.idx, -c(1, 8, 9)]) 


Coefficients: 


(Intercept) cylinders4cyl cylindersScyl cylinders6écyl 


39.450422 6.466511 4.769794 1.967411 
cylinders8cyl displacement horsepower weight 

6.291938 0.004790 -0.081642 -0.004666 
acceleration 

0.003576 


8) 查看 更 加 详细 的 结果 (你 的 结果 会 因为 创建 分 块 时 随机 抽样 的 不 同 而 不 同 ) : 


> summary (mod) 


Call: 
lm(formula = mpg = ., data = auto[t.idx, -c(l1, 8, 9)]) 
Residuals: 

Min 10 Median 30 Max 


-9.8488 -2.4015 -0.5022 1.8422 15.3597 


Coefficients: 

Estimate Std. Error t value Pr(>|t]) 
(Intercept) 39.4504219 3.3806186 11.670 < 2e-16 *** 
cylinders4cyl 6.4665111 2.1248876 3.043 0.00257 ** 
cylindersScyl 4.7697941 3.5603033 1.340 0.18146 
cylinders6écyl 1.9674114 2.4786061 0.794 0.42803 
cylinders8cyl 6.2919383 2.9612774 2.125 0.03851 * 
displacement 0.0047899 0.0109108 0.439 0.66100 
horsepower -0.0816418 0.0200237 -4.077 5.99e-05 *** 
weight -0.0046663 0.0009857 -4.734 3.55e-06 *** 
acceleration 0.0035761 0.1426022 0.025 0.98001 


Sigmf:. Codes: O eer! 0.001. "ee" 001 TFF 6205 Tot Ox ? 


Residual standard error: 3.952 on 271 degrees of freedom 


Multiple R-squared: 0.756, Adjusted R-squared: 0.7488 
F-statistic: 105 on 8 and 271 DF, p-value: < 2.2e-16 
9) 为 了 测试 数据 ， 建 立 数据 分 块 : 


> pred <- predict(mod, auto[-t.idx, -c(1,8,9)]) 


10) 计算 异型 在 测试 数据 上 的 RM SS 误 大 : 


> sqrt (mean ( (pred - auto[-t.idx, 2])%*2)) 
[1] 4.333631 


1 


11) 至 看 模型 的 回归 诊断 图 : 


> par(mfrow = c(2,2)) 
> plot (mod) 
> par(mfrow = c(1,1)) 


图 4-3 所 示 的 回归 诊断 图 为 输出 结果 
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图 4-3 


工作 原理 


步骤 1 载 入 了 caret 包 ， 步 又 2 读 取 了 数据 ， 步 骤 3 将 分 类 变量 cylinders 转 换 为 因子 (cylinders 的 取 值 为 数值 型 ， 对 于 这 种 取 
值 R 默 认 其 来 目 数 信和 型 变量 ) 。 


步骤 4 创建 了 数据 分 块 。 更 多 细节 请 参考 2.5 节 。 我 们 设 定 了 随机 数 种 子 使 你 的 结果 跟 我 们 展示 的 一 致 。 
步骤 2 打印 出 了 变量 名 。 这 样 ， 我 们 残 可 以 在 线性 回归 模型 中 使 用 恰当 的 名 字 。 


步骤 6 使 用 了 Im 函数 ， 它 可 以 建立 线性 回归 模型 ， 我 们 指定 了 data=auto[t.idx，-c (1，8，9) ]。 因 为 我 们 需要 这 个 模型 
只 包含 训练 数据 并 且 不 希望 使 用 No、model year 和 car name 变量， 它们 分 别 对 应 第 1、 9 个 变量 。 我 们 也 可 以 包含 所 有 的 
数据 ， 但 这 意味 着 我 们 必须 在 公式 中 显 式 指定 预测 变量 。 这 里 我 们 选择 了 相对 较 短 的 写法 。 


A a a a R (分 类 变量 ) ， 我 们 并 没有 为 其 创建 哑 变 量 ， 因 为 Im 函数 会 自动 处 理 它 ， 同 时 
从 输出 中 的 回归 系数 中 也 可 以 清楚 地 看 到 这 


步骤 7 展示 了 我 们 如 何 简单 地 输出 模型 变量 的 系数 值 。 
步骤 8 使 用 了 summary 函 数 来 得 到 更 多 关于 模型 的 信息 ， 如 图 4-4 所 示 。 
Residuals: 


Min 10 Median 30 Max 
-9.8488 -2.4015 -0.5022 1.8422 15.3597 


I Coefficients: 


Estimate Std. Error t value Pr(>|t|) 
.4504219 3.3806186 < 2e-16 
.4665111 2.1248876 3 . ) .00257 
.7697941 3. 5603033 1.34 .18146 

—a ag ). 42803 
.03451 
.66100 
.0816418 .021 77 5.99e-05 
.0046663 0.0009857 -4. 734 3.55e-06 
.0035761 0.1426022 0.025 0.98001 


Lad 


(Intercept) 
cylinders4cyl 
cylindersScyl 
cylindersécyl 
cylinders8cyl 
displacement 
horsepower 
weight 
acceleration 


| codes: 0 7 上 面 用 于 标记 显著 性 ， K 00S Ve 
paa 水 平 的 图 例 


| Residual standard error —_— mer ees Of freedom 
| Multiple R-squared: 0 R-squared: 
(0.7488 | : 

F-statistic: 105 on 8 and 271 DF, p-value: < 2.2e-16 


在 详细 的 输出 中 ，Residual 部 分 以 分 位 数 的 形式 展示 了 模型 在 训练 数据 上 的 残 差 的 分 布 情况 。Coeffcients 部 分 给 出 了 系数 
的 详细 信息 。 第 一 列 ，Estimate， 给 出 了 回归 系数 的 估计 值 。 第 二 列 ，std.Error 给 出 了 估计 值 的 标准 差 。 第 三 列 通过 让 系数 除 
以 标准 差 将 标准 差 转换 为 t 值 。 


Pr (>[t|) 这 一 列 将 这 个 t 值 转换 成 对 应 系数 为 0 的 概率 。 最 后 一 列 后 面 的 记号 用 后、 空格 或 一 些 星 号 显示 了 系数 的 显 车 性 水 
平 。 表 格 下 方 的 注释 解释 了 这 种 记 法 的 合 义 。 通 弟 当 一 个 系数 具有 95% 的 显著 性 ( 即 概率 水 平 小 于 0.05) 时 ， 这 个 系数 是 显著 
的 ， 并 用 * 标 记 。 


下 一 部 分 给 出 了 回归 的 整体 表现 信息 。Residual standard error 正 是 用 自由 度 修 正 的 RMS， 这 是 用 于 度量 预测 值 与 真实 值 
之 间 平 均 差异 的 一 个 绝 佳 的 指标 。Adjusted R-square 值 告诉 我 们 回归 模型 可 以 在 多 大 的 百分比 上 解释 输出 变量 的 变异 。 最 后 一 
行 显示 了 F-statistic 和 对 应 的 回归 P 值 。 


步骤 9 用 predict 销 数 在 测试 数据 上 生成 了 预测 值 。 


步骤 10 计 算 了 RM 9 误差 。 


步骤 11 生 成 了 回归 诊断 图 。 由 于 标准 的 plot 函 数 作用 于 Im 上 时 会 创建 4 幅 图 像 ， 我 们 在 绘图 前 设 定 了 4 幅 图 对 应 的 矩阵 ， 并 
在 绘图 结束 之 后 将 其 重 置 : 


- Residuals vs Fitted: 就 像 名 字 暗 示 的 那样 ， 这 幅 图 汇 出 了 残 差 对 模型 拟 合 值 的 图 像 来 让 我 们 检查 其 残 差 是 否 显示 出 某 种 趋 
势 。 理 想 情 况 下 ， 我 们 希望 它们 没有 趋势 ， 近 平一 条 经 过 零点 的 水 平 直 线 。 在 我 们 的 例子 中 ， 我 们 看 到 一 个 非常 微弱 的 趋势 。 


- Normal Q-Q: 本 图 绘制 了 标准 化 残 差 对 标准 正 态 分 布 的 理论 分 位 数 的 图 像 。 这 有 助 于 我 们 检查 残 差 究竟 在 多 大 程度 上 满足 
正 态 分 布 。 如 果 所 有 的 点 都 落 在 45 度 线 附 近 ， 则 我 们 知道 它们 满足 了 正 态 性 条 件 。 在 我 们 的 例子 中 ， 我 们 注意 到 在 残 差 的 右 侧 极 
值 或 较 大 值 附 近 ， 标 准 化 残 差 比 期 望 的 要 大 ， 因 此 没有 满足 正 态 性 要 求 。 


- Scale Location: 本 图 与 第 一 幅 图 非常 相似 。 不 同 之 处 在 于 这 里 用 标准 化 残 差 的 平方 根来 对 拟 合 值 画 图 。 这 幅 图 像 同 样 被 用 
来 检测 残 差 是 否 有 某 种 趋势 。 


- Residuals vs Leverage: 你 可 以 用 这 幅 图 来 定位 对 模型 误差 有 重大 影响 的 异常 样本 。 在 我 们 的 例子 中 ， 第 150、290 和 316 号 
样本 可 以 考虑 删除 掉 。 


我 们 接 下 来 讨论 使 用 Im 函数 时 的 一 些 选 项 。 


1. 强 制 Im 使 用 给 定 的 因子 水 平 作 为 参考 


默认 情况 下 ，|m 使 用 最 低 的 因子 水 平 作 为 参考 水 平 。 为 了 使 用 其 他 的 水 平 作为 参考 ， 我 们 可 以 用 relevel 阔 数 。 我 们 的 原始 
模型 使 用 3cyl 作 为 参考 水 平 ， 用 以 下 命令 强制 让 Im 使 用 4cyl 作 为 参考 : 


> auto <- within(auto, cylinders <- relevel (cylinders, 

ref = "4cyl") ) 

> mod <- lm(mpg ~., data = auto[t.idx, -c(1, 8, 9)]) 
得 到 的 模型 将 不 包含 4cyl 的 系数 。 


2. 在 线性 模型 中 使 用 其 他 的 公式 表达 式 选项 


我 们 的 例子 只 展示 了 Im 中 最 为 昔 用 的 公 陈 形式 ， 表 4-2 展 示 了 如 何 创建 市 有 交互 效应 的 模型 或 者 对 预测 变量 应 用 任意 函数 的 


模型 。 


公式 表达 式 对 应 的 回归 模型 解释 


Y~P 了 ~ B+ B,P 带 有 了 截 距 的 直线 
Fe PEG Ý ~ po+pP+PO Lea PAO 且 无 交互 项 的 线性 模型 
it ee Y ~ fy + BPO LER P O 的 一 阶 交互 项 模型 
Y~P*Q 

或 者 Y ~ pt+pP+PO+APO J 含 所 有 交互 项 的 完整 的 一 阶 模型 


Y~P+0O+P:O 
Xf Fir Pl AE Ae ie A ES eR A I. Ta 


Y ~ P+J (log Y ~ £, + B,P + B,log(O ae i 
sheen a Sete eI T H A 
Y = (P+0428)*2 2 ihe the sia aiiis sii P" ey 
ee 元 整 的 一 阶 模 型 。 并 有 昌 包 含 n 阶 交互 
或 者 F ~ B+BP+BO+BR+BPO+BOR+BPR| 一 5 


项 (这 里 是 指数 ) 
Y~P*QO*R-P:O:R 


45 在 线性 回归 中 运用 变量 选择 


MASS 包 中 具有 变量 选择 的 功能 。 这 里 展示 了 使 用 它 的 方法 。 
ER ZR 


如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 auto-mpg.csv 文 件 放置 于 你 的 R 工 作 目 录 中 。 我 们 想 要 基于 


cylinders、displacement、horsepower、weight 和 acceleration 来 预测 mpg。 


要 在 线性 回归 中 应 用 变量 选择 ， 请 遵循 如 下 步骤 : 
1) 载 入 caret 和 MASS 包 : 


> library (caret) 
> library (MASS) 


2) 读 取 数据 : 


> auto <- read.csv("auto-mpg.csv") 


3) 将 分 类 变量 cylinders 转 换 成 因子 ， 并 合理 地 重新 命名 它 的 各 个 水 平 : 


> autoScylinders <- factor(autoScylinders, 
Levels = oc(374.5.6,8),; labels = cl"3eyl", "macy"; *seyl*"; "tcoyl", 
" 8cyl ") ) 


4) 创建 数据 分 块 : 


> set.seed(1000) 
> t.idx <- createDataPartition(autoSmpg, p = 0.7, list = FALSE) 


5) 查看 数据 框 中 的 变量 的 名 字 : 


> names (auto) 


[ 1 ] " No " " mpg W 
[3] "cylinders" "displacement" 
[5] "horsepower" "weight" 


[7] "acceleration" "model year" 


[9] "car name" 


6) 建立 线性 回归 模型 : 


> £1t <- lm(mpg = ., data = auto[t.idx, -c(1,8,9)]) 


7) 运行 变量 选择 程序 。 这 会 产生 很 多 输出 结果 ， 之 后 我 们 将 展示 并 讨论 它们 。 由 于 随机 分 块 的 原因 ， 你 的 真实 数字 可 能 会 
不 一 样 : 


> step.model <- stepAIC(fit, direction = "backward") 


8) 查看 最 终 的 模型 (由 于 训练 样本 可 能 会 不 一 样 ， 你 的 结果 可 能 会 跟 这 里 的 不 同 ) : 


> summary (step.model) 


Call: 
lm(formula = mpg ~ cylinders + horsepower + weight, data = autol[t. 
idx, 
-c (1, Bi 9)]) 
Residuals: 
Min 10 Median 30 Max 


-9.7987 -2:3676 -0:6214 1:8625 15.3231 


Coefficients: 


Estimate Std. Error t value Pr(>|t]) 
(Intercept) 39.1290155 2.5434458 15.384 < 2e-16 *** 
cylinders4cyl 6.7241124 2.0140804 3.339 0.000959 *** 
cylindersScyl 5.0579997 3.4762178 1.455 0.146810 
cylinders6écyl 2.5090718 2.1315214 1.177 0.240170 
cylinders8cyl 7.0991790 2.3133286 3.069 0.002365 ** 
horsepower -0.0792425 0.0148396 -5.340 1.96e-0O7 *** 
weight -0.0044670 0.0007512 -5.947 8.34e-09 大 大 大 
Signal. codes: 0 Szer O.001 Pee? J.0 Sr 0,05 *.7 Gut * * 1 


Residual standard error: 3.939 on 273 degrees of freedom 
027558., Adjusted R-sgquared: 0.7505 
140.9 on 6 and 273 DF, < 2.2e-16 


Multiple R-squared: 


F-statistic: p-value: 


工作 原理 


对 步骤 1~ 步 骤 6 的 摘 述 请 参考 4.4 节 的 工作 原理 部 分 。 


步骤 7 运行 了 变量 选择 程序 。 我 们 选用 了 后 向 消去 法 ， 这 时 系统 会 首先 建立 一 个 包含 所 有 预测 变量 的 模型 ， 并 基于 AlIC 分 值 


来 消去 一 些 变量 。 下 面 展示 了 样本 的 输出 : 

Start: AIC=778.38 

mpg ~ cylinders + displacement + horsepower + weight + acceleration 
Df Sum of Sq RSS AIC 

- acceleration 1 0:01 4232:1. ‘TT6.38 

- displacement 1 01 423571 Flo 58 

<none> 4232.1 778.38 

- horsepower 1 259.61 4491.7 793.05 

- weight 1 349.99 4582.1 798.63 

- cylinders 4 859.84 5091.9 822.17 

Step: AIC=776.38 


mpg ~ cylinders + displacement + horsepower + weight 


Df Sum of Sq RSS AIC 


- displacement 1 2.02 £235...1: T4258 
<none> 4232.1 776.38 
- horsepower 1 404.33 4636.4 799.93 
- weight 1 451.22 4683.3 804.75 
- cylinders 4 862.88 5094.9 820.34 
Step: AIC=774.58 

mpg ~ cylinders + horsepower + weight 


Df Sum of Sq RSS AIC 


<none> S230. FS Pwo 
- horsepower 1 442.36 4677.4 800.40 
- weight 1 548.60 4783.7 806.69 
- cylinders 862.50 5097.6 818.49 


从 上 述 的 输出 中 ， 你 可 以 看 到 系统 首先 建立 了 完整 的 模型 ， 在 该 模型 中 ，accelation 有 最 低 的 AIC 分 值 (776.38) ， 于 是 这 
个 变量 不 再 包含 于 接 下 来 的 模型 中 。 在 这 个 过 程 中 ， 系 统 也 消去 了 displacement。 


元 整 的 模型 有 5 个 预测 变量 ,而 最 终 的 模型 有 3 个 。 在 这 个 过 程 中 ，R2 几 乎 不 变 ， 但 我 们 得 到 了 一 个 不 那么 复杂 的 模型 。 


Qan “在 前 向 选择 模型 中 ， 系 统 使 用 了 相反 的 处 理 手段 来 添加 预测 变量 。 


4.6 建立 回归 树 


本 方法 涵盖 了 用 树 模型 做 回归 。rpart 包 提供 了 建立 回归 树 的 必要 函数 。 
ER MEA 


如 果 你 还 没有 安 委 rpart、caret 和 rpart.plot， 那 么 现在 去 安 妆 它们 。 如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确 
保 将 BostonHousing.csv 和 education.csv 文 件 放 置 于 你 的 R 工 作 目 录 中 。 


要 起 么 做 
要 建立 回归 树 ， 请 遵循 以 下 步骤 : 


1) 载 入 rpart、rpart.plot 和 Caret 包 : 


> library (rpart) 
> library (rpart.plot) 
> library (caret) 


2) 读 取 数 据 : 


> bh <- read.csv("BostonHousing.csv") 


3) 为 数据 分 块 : 


> set.seed(1000) 
> t.idx <- createDataPartition (bhsMEDV, p=0.7, 


4) 建立 并 查看 回归 树 模型 


> bfit <- rpart(MEDV = ., data = bh[t.idx, ] ) 
> BEIE 

n= 356 

node), split, n, deviance, yval 


* denotes terminal node 


1) root 356 32071.8400 22.61461 
2) LSTAT>=7.865 242 8547.6860 18.22603 

4) LSTAT>=14.915 114 2451.4590 14.50351 
8) CRIM>=5.76921 56 136.2136 SS 
9) CRIM< 5.76921 58 751.9641 17.26897 

5) LSTAT< 14.915 128 3109.5710 21.54141 
10) DISs=1.80105 121 1419.7510 21.12562 
11) DIS< 1.80105 7 1307.3140 28.72857 * 


6969:3230 31.93070 
32890.1050 25.707153 
1022.5320 45.24130 * 
1163.9800 32.10000 
26) LSTAT>=5.495 17 329.2494 28.59412 
27) LSTAT< 5.495 30 507.3747 34.08667 
T) Ms=T 2525 21 444.3295 46.20476 * 


3) LSTAT< 7.865 114 
6) RM< 7.4525 93 

12) RM< 6.659 46 

13) RM>=6.659 47 


5) 画 出 树 图 。 使 用 rpart.plot 包 中 的 prp 函 数 并 选用 如 下 参数 选项 来 得 到 一 个 美 
MSHA. 


> prp(bfit, type=2, nn=TRUE, 
varlen=8, shadow.col="gray") 


得 到 的 图 像 如 图 4-5 所 示 。 
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观 的 图 形 。 为 了 简便 ， 图 形 中 对 y 值 进行 了 


fallen.leaves=TRUE, faclen=4, 
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LSTAT >= 15 ——RM < 7.4 
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CRIM >= 5.9 LSTAT >= 5.5 LSTAT >= 9.7 


6) 碍 看 cptable。 由 于 在 交叉 验证 过 程 中 使 用 了 随机 数 ，cptable 看 起 来 可 能 会 不 一 样 : 


> bfitscptable 


CP nsplit rel error xerror xstd 
1 0.45381973 0 1.0000000 1.0068493 0.09724445 
2 0.16353560 1 0.5461803 0.6403963 0.06737452 
3 0.09312395 2 0.3826447 0.4402408 0.05838413 
4 0.03409823 3 0.2895207 0.3566122 0.04889254 
5 0.02815494 4 0.2554225 0.3314437 0.04828523 
6 0.01192653 5 0.2272675 0.2891804 0.04306039 
7 0.01020696 6 0.2153410 0.2810795 0.04286100 
8 0.01000000 “人 


7) 你 可 以 选择 交叉 验证 误差 (xerror) 最 小 的 数 或 者 根据 1 倍 标 准 差 法 则 (xstd) 来 选择 在 最 小 误差 的 1 倍 标准 差 之 内 具有 
更 小 节点 的 数 。 前 一 种 做 法 需要 选择 有 7 个 分 又 的 树 (在 最 后 一 行 ) ， 这 棵 树 有 8 个 节点 。 要 应 用 第 二 种 方法 ， 首 先 计算 出 最 小 
xerror+1 倍 标准 差 =0.2791785+0.04281285=0.3219914， 然 后 我 们 选择 了 有 5 个 分 叉 的 树 (在 第 6 行 ) 。 


8) 要 简化 这 一 过 程 ， 你 可 以 通过 仅仅 画 出 cptree 并 用 图 像 来 选择 部 校 的 截断 值 。 这 幅 图 显示 了 数 的 大 小 一 一 比分 又 个 数 大 
一 个 单位 。 表 和 图 在 另 一 个 重要 的 方面 有 区 别 一 一 复杂 度 或 cp 值 。 表 格 中 显示 了 不 同 分 又 个 数 对 应 的 最 小 cp 值 。 图 中 显示 了 一 
系列 分 又 数 的 几何 平均 数 。 对 于 表格 而 言 ， 由 于 交叉 验证 中 使 用 了 随机 数 ， 你 的 图 可 能 会 不 一 样 : 


~ DIOLCDI( DELLE) 


要 运用 1 倍 标准 差 法 则 来 从 图 上 选择 最 好 的 cp 值 ， 我 们 需要 找到 交叉 验证 相对 误差 (y$) 在 虚线 下 方 的 所 有 点 中 最 左 侧 的 
点 。 这 个 点 的 cp 值 即 为 所 求 。 用 这 个 点 的 cp 值 我 们 得 出 所 选 的 cp 值 为 0.018 (如 图 4-6 所 示 ) 。 
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0.12 0.056 0.031 0.018 0.011 


cp 


9) 用 选 好 的 cp 值 剪 梳 并 画图 : 


# In the command below, replace the cp value 

# based on your results 

bfitpruned <- prune (bfit, cp= 0.01192653) 

prp(bfitpruned, type=2, nn=TRUE, fallen.leaves=TRUE, faclen=4, 
varlen=8, shadow.col="gray") 


V V V V 


得 到 如 下 的 输出 : 


F 


(22) 
一 RM < 6.8 


(19) 
LSTAT >= 15 


Ea peal 
| 15 | (23) 


| 
S 
CRIM >= 5.9 LSTAT >= 5.5 


Ea [9] 10) 


(12) = (17) (22) 


A A —— 


10) 用 选 定 的 树 来 计算 训练 分 块 的 RMS9 误 差 : 
> preds.t <- predict (bfitpruned, bh[t.idx,]) 


> sqrt (mean ( (preds.t-bh[t.idx, "MEDV"] ) *2) ) 
[1] 4.524866 


11) 在 验证 分 块 上 做 预测 并 得 到 RM 3 误差 : 
preds.v <- predict (bfitpruned, bh[-t.idx, ] ) 


> sqrt (mean((preds.v - bh[-t.idx, "MEDV"]) *2) ) 
[i] 4.535723 


工作 原理 
步 又 1 和 步骤 2 载 入 了 所 需 的 包 并 读 取 数据 。 
步骤 3 为 数据 分 块 。 更 多 细节 请 参考 2.5 节 。 我 们 设 定 了 随机 数 种 子 使 你 的 结果 与 我 们 展示 的 一 致 。 


步 又 4 中 用 rpart 消 数 来 建立 树 模 型 。 它 传递 了 公式 MEDV~ .来 指定 MEDV 为 输出 变量 ， 且 所 有 其 他 变量 为 预测 变量 。 它 指定 
了 data=bh[t.idx，] 襄 明 建 立 模型 时 仅 用 到 训练 分 块 中 的 行 。 


然后 它 以 文字 形式 输出 了 模型 的 细节 。 输 出 结果 显示 了 根 书 点 以 及 
下 属 所 有 分 义 点 的 信息 。 每 一 行 都 包括 如 下 信息 : 


node), split, n, deviance, yval 
i 节点 编号 。 


“ 用 来 生成 节点 的 分 又 信息 (对 于 根 节点 只 显示 “root”) 。 


- 每 一 个 节点 的 样本 数量 。 
` 每 一 个 节点 的 输出 变量 误差 的 平方 和 。 
. 每 一 个 节点 的 输出 变量 的 平均 值 。 
我 们 有 很 多 选项 来 控制 rpart 消 数 工 作 。 其 中 一 些 重要 的 默认 值 如 下 : 
“ cp，0.01 作 为 复杂 度 因子 。 
` minsplit， 最 少 需要 20 个 样本 才 会 进一步 分 割 一 个 节点 。 


minbucket， 若 进一步 分 割 会 产生 小 于 round (minsplit/3) 个 样本 的 节点 ， 则 不 进行 分 割 。 


— 


你 在 运行 rpart 时 可 以 传递 一 个 rpart.control 对 象 来 控制 这 些 参数 。 下 面 的 代码 给 出 了 一 个 例子 。 这 里 我 们 用 0.01、10 和 5 分 
别 作为 co、minsplit 和 和 minbucket 的 值 : 


> fit <- rpart(MEDV = p data = bh[t.idx,], control = rpart. 
control(minsplit = 10, cp = 0.001, minbucket = 5) 


ee ie 数 画 出 了 这 个 树 模型 。 这 个 函数 提供 了 一 些 参数 选项 ， 通 过 它们 ， 我 们 可 以 控制 图 像 的 外 
观 。 接 下 来 描述 其 中 一 些 选 项 。 其 他 选项 请 查看 文档 。 


: type: 涉及 打印 出 的 信息 的 量 和 位 置 。 
‘on: 是 否 显示 节点 数 。 


- fallenleaves: 是 否 在 同一 水 平 (最 底部 ) 显示 所 有 的 


这 会 生成 一 个 只 有 水 平 与 坚 直 线 的 容易 分 辨 的 图 ; SM, 


ARPA ASH Ro 
faclen: RAT ERDAS PPK HY FA RR 如 果 有 必要 会 采用 缩写 。 
Le 果 有 必要 会 进行 截断 。 


- shadow.col: 代表 了 每 一 个 节点 的 阴影 颜色 。 


步骤 6 打印 了 cptable， 它 是 拟 合 的 树 模 型 的 一 个 组 件 。 — S MNATAAWZR, APIS FAB, 
LAR — FRA) ASAT RT MAIS SRR. IX MES ART EATER. Fe PREIS PHS FI: 


: cp. 代表 了 复杂 度 因 Ta 
-nsplit: 代表 了 每 一 个 cp 所 对 应 的 最 佳 的 树 的 分 又 数量 。 


-telerror: 对 于 指定 分 叉 数 量 的 最 佳 的 树 ， 其 总 的 分 类 误差 平方 〈 在 建 模 所 用 的 数据 上 ) 占 根 节点 的 误差 平方 的 比例 。 这 
个 根 节 点 的 误差 是 基于 将 所 有 输出 变量 的 均值 作为 样本 的 预测 值 而 得 到 的 。 


-xerror: 代表 了 指定 分 又 数量 下 的 最 佳 的 树 的 交叉 验证 误差 的 均值 。 
-xstd: 代表 了 指定 分 又 数量 下 的 最 佳 的 树 的 交叉 验证 误差 的 标准 差 。 


步骤 7 解释 了 我 们 如 何 用 cptable 的 信息 来 为 树 前 枝 并 避免 过 度 拟 合 。 我 们 可 以 选择 具有 最 小 交叉 验证 误 笑 的 树 ,， 或 者 选择 


SO SUN ZEA 1 IEA CARE AI. ETA LAER, FF AVA cp Ak. 
步骤 8 展示 了 一 种 简便 的 选择 cp 值 的 方法 ， 其 通过 用 plotcp 函 数 画 出 cptable 来 选择 最 佳 cp 值 。 
步 又 9 用 选 定 的 cp 值 部 校 。 

步骤 10 用 predict 函 数 来 对 训练 分 块 做 预测 并 计算 RM S 误 差 。 


步骤 11 对 验证 分 块 做 同样 的 操作 。 


束 像 本 节 中 解释 的 那样 ， 回 归 树 也 可 以 用 于 建立 针对 分 类 变量 的 模型 。 


在 包含 分 类 预测 变量 的 数据 集 上 建立 回归 树 


当 数 据 集中 有 分 类 型 预测 变量 时 ，rpart 消 数 仍 然 有 效 。 你 只 需要 确保 这 个 变量 被 标记 为 因子 。 请 看 下 面 这 个 例子 : 


ed <- read.csv("education.csv") 

edSregion <- factor (ed$region) 

set.seed(1000) 

t.idx <- createDataPartition(edSexpense, p = 0.7, list = FALSE) 
fit <- rpart (expense ~ region+urban+income+underl8s, data = edl[t. 
Tee 1) 

> prp(fit, type=2, nn=TRUE, fallen.leaves=TRUE, faclen=4, varlen=8, 
shadow.col="gray") 


VV V V V 


得 到 如 图 4-8 所 示 输 出 。 


4.7 ”建立 用 于 回归 的 随机 森林 模型 


最 成 功 的 机 器 学 习 技 术 之 一 。 


本 万 法 针对 随机 森林 


ER ZR 


如 果 你 还 没有 安装 randomForest 和 caret 包 ， 那 么 现在 去 安装 它们 。 下 载 本 章 的 数据 文件 并 确保 将 BostonHousing.csv 文 件 
放置 于 你 的 R 工 作 目 录 中 。 我 们 会 建立 一 个 随机 森林 模型 来 基于 其 他 变量 预测 MEDV。 


要 建立 基于 回归 的 随机 森林 模型 ， 请 遵循 以 下 步骤 : 
1) 载 入 randomForest 和 caret 包 .: 


> library (randomForest) 
> library (caret) 


2) 读 取 数 据 : 


> bn <- read.csv("BostonHousing.csv") 


3) 为 数据 分 块 : 


> set.seed(1000) 
> t.idx <- createDataPartition(bh$MEDV, p=0.7, list=FALSE) 
4) 建立 随机 和 森林 模型 。 因 为 这 条 命令 建立 了 很 多 回归 树 ， 所 以 即使 在 一 个 中 等 大 小 的 数据 集 上 上 ， 它 也 会 占用 相当 长 的 运行 
时 间 : 
> mod <- randomForest (x = bh[t.idx,1:13], 


y=bh [t.idx,14],ntree=1000, xtest = bh[-t.idx,1:13], 
ytest = bh[-t.idx,14], importance=TRUE, keep.forest=TRUE) 


5) 检查 结果 (你 的 结果 可 能 会 因为 随机 因子 的 不 同 而 略 有 不 同 ) : 


> mod 
Call: 

randomForest (x = bh[t.idx, 1:13], y = bh[t.idx, 14], xtest = 
bh[-t.idx, 1:13], ytest = bh[-t.idx, 14], ntree = 1000, 
importance = TRUE, keep.forest = TRUE) 


Type of random forest: regression 


Number of trees: 1000 
No. of variables tried at each split: 4 


Mean of squared residuals: 12.61296 
% Var explained: 86 
Test set MSE: 6.94 
% Var explained: 90.25 


6) 检查 变量 的 重要 性 : 


> modSimportance 
S$IncMSE IncNodePurity 


CRIM 9.5803434 2271.5448 
ZN O..343.0226 142. L291 
INDUS 6.6838954 1840.7041 
CHAS 0.6363144 133. 7132 
NOX 9.3106894 1922.5483 
RM 36.4 7903L2 8540.4644 
AGE 3.7186444 820. 7750 
DIS 7.4519827 2b Loo 
RAD Loron riu TAr 
TAX 4.5373887 1049.3716 
PTRATIO 6.8372845 2030.2044 
B 1.2240072 Ue 
LSTAT 67.0867117 9532:. 3054 


7) 比较 训练 分 块 的 预测 值 和 真实 值 : 


> plot (bh[t.idx,14], predict( mod, newdata=bh[t.idx,]), xlab = 
"Actual", ylab = "Predicted") 


执行 前 述 命 令 的 输出 结果 如 图 4-9 所 示 。 
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8) 在 训练 分 块 上 比较 安 外 (Out Of Bag, OOB) 数据 预测 值 和 真实 值 : 


图 


Actual 


4-9 


30 


> > plot (bh[t.idx,14], mod$Spredicted, xlab = 
"Predicted" ) 


"Actual", ylab = 


前 述 命 令 的 输出 如 图 4-10 所 示 。 
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A) 4-10 

9) 在 训 | 练 分 块 上 比较 预测 值 和 真实 值 : 
> plot (bh[-t.idx,14], modStestSpredicted, xlab = "Actual", ylab = 
"Predicted" ) 


前 述 命令 的 结果 如 图 4-11 所 示 。 
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图 4-11 
工作 原理 
步骤 1 和 步骤 2 载 入 了 必要 的 包 并 读 取 了 数据 。 


步骤 3 为 数据 分 块 。 更 多 细 贡 请 但 看 2.5 节 。 我 们 设 定 了 随机 数 种 子 来 使 你 的 结果 与 我 们 所 展示 的 一 致 。 扩 术 上 来 说 ， 我 们 并 
不 真 的 需要 为 数据 分 块 。 因 为 随机 森林 会 建立 很 多 树 ， 并 每 次 只 使 用 数据 的 一 个 子 集 。 因 此 ， 每 一 个 样本 ， 对 于 约 1/3 的 树 来 说 
都 是 OOB 的 ， 并 且 能 被 用 在 验证 中 。 然 而 ， 这 种 做 法 也 为 我 们 提供 了 一 种 单独 验证 数据 集 的 做 法 ， 因 此 我 们 在 此 列 出 。 


步骤 4 建立 了 随机 和 森林 模型 。 我 们 展示 了 命令 并 摘 述 如 下 的 参数 : 
> mod <- randomForest (x = bh[t.idx,1:13], 
y=bh [t.1dx,14],ntree=1000, xtest = bh[-t.1dx,1:13], 
ytest = bh[-t.idx,14], importance=TRUE, keep. forest=TRUE) 
‘x: 预测 变量 。 
-y:i 输出 变量 。 
-ntree: 要 建立 的 树 的 个 数 。 
-xtest: 验证 分 块 中 的 预测 变量 。 
.ytest: 验证 分 块 中 的 输出 变量 。 


‘importance: 代表 了 是 否 计 算 预 测 变 量 的 重要 性 评分 。 


-keep.forest: 代表 了 是 否 在 最 后 结果 中 保留 树 ， 只 有 保留 下 来 才能 用 此 模型 做 预测 。 


步骤 5 打印 出 模型 。 这 里 显示 了 训练 分 块 和 验证 分 块 上 的 均 方 根 误 兰 ， 同 时 也 显示 了 模型 可 以 解释 的 输出 变量 的 变异 的 比 
例 。 


步骤 6 利用 了 模型 的 Importance 组 件 来 打印 出 每 一 个 变量 的 重要 性 水 平 。 对 每 一 棵 生成 的 树 ， 此 方法 下 先生 成 预测 值 ， 然 后 
对 每 一 个 变量 (每 次 一 个 ) ， 它 会 将 这 些 值 随机 排列 作为 OOB 样 本 并 做 预测 。 变 量 的 预测 值 的 降序 排列 显示 了 变量 的 重要 性 排 
序 。 对 每 一 个 了 预测 变量 ,重要 性 表格 报告 了 其 在 所 有 树 中 的 平均 值 ， 值 越 高 越 重要 。 


步骤 7 绘制 了 训练 分 块 的 预测 值 对 真实 值 的 图 像 。 
步骤 8 用 模型 的 predicted 组 件 (mod$predicted) 来 绘制 OOB 预 测 值 对 真实 值 的 图 像 。 
步骤 9 在 测试 样本 上 用 mod$predicted 来 绘制 模型 的 预测 性 能 表现 。 
更 多 细节 
我 们 在 此 讨论 一 些 重要 的 选项 。 
控制 森林 的 生成 
你 可 以 用 以 下 额外 的 选项 来 控制 算法 如 何 生成 森林 : 
mty: 预测 变量 将 用 于 在 每 一 个 分 又 上 做 随机 抽样 的 个 数 ; 默认 值 是 m/3， 这 里 m 是 预测 变量 的 个 数 。 
-nodesize: 终端 节点 的 最 小 尺寸 ; 默认 值 是 5， 设 置 更 大 的 值 会 导致 更 小 的 树 。 


maxnodes: 一 棵 树 所 能 拥有 的 终端 节点 的 最 大 个 数 ; 如 果 未 指明 ， 则 树 会 生长 到 nodesize 所 允许 的 最 大 可 能 值 。 


4.8 用 伸 经 网 络 做 回归 


nnet 包 市 有 建立 神经 网 络 模型 的 功能 ， 可 用 于 分 类 和 预测 。 在 本 方法 中 ， 我 们 涵 关 了 用 nnet 建 立 一 个 神经 网 络 模型 的 步 


ER ZR 


如 果 你 还 没有 安装 nnet、caret 和 devtools 包 ， 那 么 现在 去 安装 它们 。 如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确 
保 将 BostonHousing.csv 文 件 放 置 于 你 的 R 工 作 目 录 中 。 我 们 会 建立 一 个 基于 其 他 变量 的 神经 网 络 模型 来 预测 MEDYV.。 


要 怎么 做 


要 建立 由 于 回归 的 神经 网 络 模型 ， 请 遵循 以 下 步骤 : 
1) 载 入 nnet 和 caret 包 .: 


> library (nnet) 
> library (caret) 


> library (devtools) 
2) 读 取 数 据 : 
> bh <- read.csv("BostonHousing.csv") 
3) 为 数据 分 块 : 


> set.seed(1000) 
> t.idx <- createDataPartition (bhsMEDV, p=0.7, list=FALSE) 


4) FRSA, ERBES CAE, 1]: 


> summary (bhSMEDV) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
5.00 17:02 21.20 22.53 25.00 50.00 


5) 建立 模型 : 


> fit <- nnet (MEDV/50 ~ ., data=bh[t.idx,], size=6, decay = 0.1, 
maxit = 1000, linout = TRUE) 


6) HTEEWAE, Mfawda12349GitHub} RERE plot.nneth t. LARS RX TSRAEAR: 


> source url('https://gist.githubusercontent.com/fawda123/7471137/ 
raw/466c1474d0a505££044412703516c34f1a4684a5/nnet plot update.r') 


7) 绘制 网 络 : 


> plot(fit, max.sp = TRUE) 


前 述 代码 命令 的 结果 如 图 4-12 所 示 。 


01. MEDV/50 
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A 4-12 
8) 计算 训练 数据 上 的 RMS 误 差 (你 的 结果 可 能 会 不 同 ) : 
> t.rmse = sqrt(mean((fit$fitted.values * 50 - bh[t.idx, 
"MEDV"])“*2) ) 


> t.rmse 
[1] 2.797945 


9) 在 验证 分 块 上 生成 预测 值 并 得 到 RMS 误 差 (你 的 结果 可 能 会 不 同 ) : 
> v.rmse <- sqrt (mean ( (predict (fit,bh[-t.idx,]*50 - bh[-t.idx, 
"MEDV"]) 2) ) ) 


> V.rmse 
[1] 0.42959 


工作 原理 


步骤 1 载 入 了 必需 的 包 一 一 nnet 用 于 神经 网 络 建 模 ，caret 用 于 数据 分 块 。 我 们 也 载 入 了 devtools 包 因为 需要 通过 网 页 url| 来 
获取 可 绘制 网 络 的 代码 。 


步骤 2 读 取 了 数据 。 
步骤 3 为 数据 分 块 。 更 多 细节 请 参考 2.5 节 。 我 们 设置 了 随机 数 种 子 使 你 的 结果 与 我 们 展示 的 一 致 。 
步骤 4 通过 nnet 包 中 的 nnet 函 数 来 建立 神经 网 络 模型 


> fit <- nnet(MEDV/50 ~ 


., Gata=bh[t.idx,], size=6, decay = 0.1, maxit 
= 1000, linout = TRUE) 


我 们 将 啊 应 变量 除 以 ?0 使 其 缩小 全 [0，1] 值 域 。 我 们 传递 了 如 下 参数 : 


-size—6: 指明 了 隐藏 层 中 的 节点 个 数 。 
- decay=0.1: 指明 了 decay。 
- maxit=1000: 如 果 在 maxit 这 么 多 次 迭代 之 后 仍 未 收敛 ， 则 程序 终止 。 
-linout=TRUE: 指定 我 们 需要 的 输出 是 线性 的 ， 而 不 是 逻辑 型 的 。 
步骤 6 使 用 了 devtools 包 中 的 Source_url 国 数 从 外 部 url 中 获取 打印 国 数 的 代码 。 


步骤 7 绘制 了 神经 网 络 。 线 条 的 深浅 代表 了 对 应 权重 的 强 弱 。 我 们 用 max.sp=TRUE 来 闲置 图 像 中 节点 之 间 的 最 大 可 能 间 
HE. 


w RSHA T AA fitted BRAE ERMS RE, 


步骤 9 在 验证 分 块 上 使 用 了 predict 函 数 来 生成 预测 值 ， 从 而 计算 验证 分 块 上 的 RM S 误 差 。 


49 ”运用 K- 折 交叉 验证 


当 应 用 R 中 的 某 些 技 术 手 段 时 ， 比 如 分 类 树 和 回归 树 。 这 些 技术 自身 束 会 运用 交叉 验证 来 帮助 选择 模型 并 避免 过 度 拟 合 。 然 
而 ， 其 他 有 些 技术 并 不 会 自动 完成 这 些 工 作 。 当 对 一 个 具体 问题 可 以 选择 多 种 不 同 的 机 器 学 习 广 法 时 ,我 们 可 以 及 用 标准 的 将 数 
据 划 分 为 训练 集 和 测试 集 的 方法 ， 然 后 基于 它们 的 结果 来 做 出 选择 。 然 而 交叉 验证 可 以 更 加 彻底 地 评估 一 个 模型 在 保留 数据 上 的 
表现 。 用 交叉 验证 来 比较 各 种 方法 的 表现 能 够 更 加 真实 地 摘 绘 出 它们 的 相对 性 能 。 


EEA 


KEPPELE AGER ANGA. TRARA EAH BostonHousing.cv HRE ERIIRIFEHR 


在 本 方法 中 ， 我 们 将 向 你 展示 一 些 基 本 代码 ， 这 些 代码 可 以 为 线性 回归 实施 交叉 验证 。 尽 管 有 些 包 ， 如 caret、DAAG 以 及 
boot 提 供 了 开 箱 即 用 的 交叉 验证 功能 ， 但 它们 只 涵盖 了 部 分 机 器 学 习 技 术 。 你 也 许 会 友 现 一 个 普 适 的 框架 是 非常 有 用 的 ， 并 且 
可 以 将 它 应 用 到 任何 机 器 学 习 技 术 上 去 。 要 完成 这 项 工作 ， 请 遵循 以 下 步骤 : 


1) 读 取 数 据 : 


> bh <- read.csv("BostonHousing.csv") 


2) 创建 如 下 的 两 个 国 数 ， 我 们 这 里 显示 了 行 号 以 使 于 过 论 : 


1 rdacb.kfold.crossval.reg <- function(df, nfolds) { 

2 fold <- sample(1l:nfolds, nrow (df), replace = TRUE) 

3 mean.sgqr.errs <- sapply(1:nfolds, 
rdacb.kfold.cval.reg.iter, 
dE. fold) 

图 list ("mean sqr errs"= mean.sqr.errs, 
"overall mean sqr err" = mean(mean.sqr.errs), 
"std dev mean sqr err" = sd(mean.sgr.errs) ) 


5 } 


6 rdacb.kfold.cval.reg.iter <- function(k, df, fold) { 
7 trg.idx = !fold %in% c(k) 

8 test.idx <- fold %in% c(k) 

9 mod <- lm(MEDV ~ ., data = df[trg.idx, ] ) 
10 pred <- predict (mod, df[test.idx, ] ) 
1i sqr.errs <- (pred - df[test.idx, "MEDV"])^2 
12 mean (sgqr.errs) 


3) 有 了 前 面 这 两 个 尔 数 ， 你 便 可 以 使 用 k=5 时 的 K- 折 交叉 验证 : 


~~ 


res <- rdacb.kfold.crossval.reg(bh, 5) 
# get the mean squared errors from each fold 
ressmean sqr errs 


resSoverall mean sqr err 


> 

> 

> 

> # get the overall mean squared errors 

> 

> # get the standard deviation of the mean squared errors 
> 


ressstd dev mean sqr err 


工作 原理 
步骤 1 读 取 了 效 据 文件 。 
在 步骤 2 中 ， 我 们 定义 了 两 个 用 来 实现 k- 折 交叉 验证 的 函数 。 行 1~5 定 义 了 第 一 个 轴 数 ， 行 6~13 定 义 了 第 二 个 函数 。 
第 一 个 辫 数 rdacb.kfold.crossval.reg 设 定 了 K- 折 并 使 用 第 二 个 消 数 来 建 模 计算 每 一 折 中 的 误 舌 。 
第 2 行 用 1~k 的 随机 抽样 创造 了 k 个 折 。 于 是 ， 若 一 个 数据 框 中 有 1000 个 元 素 ， 则 这 一 行 会 生成 1~k 的 1000 个 随机 整数 。 
第 3 行使 用 第 二 个 函数 来 计算 每 一 个 折 的 误差 。 
第 4 行 建立 了 一 个 列表 ， 其 包含 了 每 一 个 分 块 的 均 万 根 误 差 ， 所 有 折 上 的 总 均值 ， 以 及 所 有 均 万 根 误 差 的 标准 差 。 
第 二 个 函数 计算 了 一 个 特定 分 块 上 的 误 大 。 


第 7~8 行 设 定 了 训练 数据 和 测试 数据 。 折 的 数目 通过 参数 k 传 入 ， 第 7 行将 所 有 非 第 k 折 的 数据 作为 训练 数据 。 第 8 行将 所 有 
属于 第 k 折 的 数据 作为 训练 数据 。 


第 9 行 用 训练 数据 建立 了 线性 回归 模型 。 


第 10 行 在 测试 数据 上 生成 了 预测 值 。 
第 11 行 计算 了 平 万 根 误 郑 。 


第 12 行 返回 了 平方 根 误差 的 均值 。 


4.10 ”运用 留 一 交叉 验证 来 限制 过 度 拟 合 


我 们 提供 一 个 在 线性 回归 上 实现 留 一 交叉 验证 的 代码 框架 。 你 应 该 能 够 方便 地 将 它 用 于 任何 其 他 回归 技术 上 。4.9 节 中 的 基 
本 原理 和 解释 也 适用 于 本 市 。 


要 使 用 留 一 交叉 验证 (LOOCV) 来 限制 过 度 拟 合 ， 请 遵循 如 下 步骤 : 
1) 读 取 数 据 : 
> bh <- read.csv("BostonHousing.csv") 


2) 创建 如 下 的 两 个 函数 ， 我 们 显示 了 行 号 以 便于 讨论 : 


1 rdacb.loocv.reg <- function(df) { 
2 mean.sgr.errs <- sapply(1:nrow(df), 
rdacb.loocv.reg.iter, df) 


3 list ("mean sqr errs"= mean.sqr.errs, 
"overall mean sqr err" = mean(mean.sqr.errs), 
"std dev mean sqr err" = sd(mean.sqr.errs) ) 
4} 


5 rdacb.loocv.reg.iter <- function(k, df) { 
6 mod <- lm(MEDV ~ ., data = df[-k, ] ) 

7 pred <- predict (mod, df[k,]) 

8 sqr.err <- (pred - df[k, "MEDV"])^2 

9 


} 


3) 有 了 前 面 两 个 为数 ， 你 便 可 以 如 下 使 用 留 一 交叉 验证 (这 会 运行 506 次 线性 回归 ， 因 此 会 耗费 一 些 时 间 ) : 


res <- rdacb.loocv.reg (bh) 

# get the raw mean squared errors for each case 
res$mean sqr errs 

# get the overall mean squared error 
resSoverall mean sqr err 

# get the standard deviation of the mean squared errors 


VV Vv V V V V 


resSstd dev mean sqr err 


工作 原理 


步 又 1 读 取 了 数据 。 


步骤 2 创建 了 两 个 国 数 用 来 实现 留 一 交叉 验证 。 第 1~4 行 定义 了 第 一 个 国 数 rdacb.loocv.reg， 第 5~9 行 定义 了 第 二 个 为数 


rdacb.loocv.reg.iter: 


第 一 个 函数 tdacb.loocv.teg 的 第 2 行 重 复 调 用 了 第 二 个 函数 tdacb.loocv.feg'itet 来 建立 一 个 留 一 交叉 验证 的 回归 模型 并 计算 平 


第 二 个 函数 tdacb.loocv.teg'itet 的 第 6 行 在 保留 一 个 样本 的 数据 框 上 建立 回归 模型 。 
第 7 行 对 剩余 样本 做 出 预测 。 
` 第 8 行 计算 了 平方 误差 。 


步骤 3 用 了 前 述 函 数 来 实现 留 一 交叉 验证 并 显示 结果 。 


om ”你 能 化 简 它 吗 一 一 数据 简化 技术 


当面 对 大 型 数据 集 时 ， 无 论 是 样本 量 大 ， 还 是 变量 数 多 ,或 者 两 者 兼 具 ， 分 析 师 们 经 常 寻求 降低 数据 的 复杂 度 。 他 们 使 用 聚 
类 分 析 将 样本 量 缩减 至 一 个 有 代表 性 且 适 合 处 理 的 数量 ,或 者 他 们 会 使 用 主 成 分 分 析 (PCA) 来 找 出 能 够 包含 原始 变量 的 绝 大 部 
分 信息 的 一 小 组 变量 或 维度 。 


你 能 化 向 它 吗 一 一 数据 向 化 近 林 


51 引言 
或 者 两 者 兼 具 ， 分 析 师 们 经 音 寻 求 降低 数据 的 复杂 上 度 。 他 们 使 用 聚 
台 变量 的 绝 大 部 


‘TEn k 
是 变量 数 多 ， 


当面 对 大 型 数据 集 时 ， 无 论 是 样本 量 大 ， 还 
分 析 将 样本 量 缩减 至 一 个 有 代表 性 上 且 适 合 处 理 的 数量 ， 或 者 他 们 会 使 用 主 成 分 分 析 (PCA) 来 找 出 能 够 包含 原 


分 信息 的 一 小 组 变量 或 维度 。 


5.2 ”用 K- 均 信 聚 类 法 实现 聚 类 分 析 


R 标 准 包 stats 提 供 了 K- 均 值 聚 类 的 函数 。 我 们 也 可 以 使 用 cluster 包 对 聚 类 分 析 结 果 绘 图 。 
EX 


iE BS LZ 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 auto-mpg.csv 文 件 放置 于 你 的 R 工 作 目 录 中 ， 同 时 确保 你 已 经 
装 了 cluster 包 。 


类 实现 聚 类 分 析 ， 请 遵循 如 下 步 又: 


要 使 用 K- 均 值 聚 类 3 


1) 读 取 数据 : 
> auto <- read.csv("auto-mpg.csv") 


=; 
变量 添 


加 全 原始 数据 中 


2) 定义 一 个 简便 的 函数 用 来 将 相关 变量 标准 化 并 将 结 
{ 


rdacb.scale.many <- function (dat, column nos) 
nms <- names (dat) 
for (col in column nos) { 
name <- paste0 (nms [col], 
dat [name] <- scale (dat[, col] ) 
length (column _ nos), "variable (s)\n")) 


" z i ) 


} 


cat (paste ("Scaled", 
dat 
} 

趣 的 变量 标准 化 。 这 里 忽略 了 变量 No、model year 和 car_name: 


Bn NM/ 
IQR N 


3) 用 上 述 这 个 便捷 消 数 对 我 们 


> auto <- rdacb.scale.many(auto, 2:7) 
> # See the variables now in auto 
> names (auto) 


Pl "Ber "mpg" 

[3] "cylinders" "displacement" 
[5] "horsepower" "weight" 

[7] "acceleration" "model year" 

[9] "car name" "mpg z" 

[11] "cylinders z" "displacement z" 
[13] "horsepower z" "weight z" 


[15] "acceleration z" 


4) 对 给 定 的 K 值 实现 K- 均 值 聚 类 。 后 面 会 介绍 如 何 设置 一 个 较 好 的 K 值 。 因 为 随机 数 选取 的 K 个 切 始 点 的 不 同 ， 你 的 结果 可 


能 会 不 同 : 


set.seed(1020) 
fit <- kmeans(auto[, 10:15], 5) 
# Examine the fit object - produces a lot of output 


a 


> 

> 

> 

> # Your results could differ slightly 

> 

K-means clustering with 5 clusters of sizes 36, 96, 62, 117, 87 


Cluster means: 
mpg z cylinders z displacement z 


1 -0.4141251 0.2388808 0.2772370 
2 -1.1538840 1.4963079 1.4943315 
= of. aaa 77TIs 0.3679422 0.875709 
4 0.3259756 -0.8753429 -0.7189046 
5 1.3138889 -0.8349721 -0.9305048 
horsepower Z weight z acceleration zZ 
L —0.28320032 0.5386915 1.29988821 
2 1.50450532 1.3943873 -1.06420891 
3 0.03201748 0.1614095 “0 .12178037 


4 -0.43500729 -0.6304741 -0.06498252 
5 -0.98076471 -1.0286895 0.81059100 


Clustering vector: 


[AZAR RAABALBRAALAA SAAD AD GS 
[23] 444252354245 421545323 2 
M5, 244221 23 €2 422343 424442 254222 5 
67 2ARASELABRSRRBALARASE SESE 232s 2 
[89] 5422455542425 542545 2 4 3 
Ait BBAWAASSRBEAAABRASBA!*AZS AZAAZE 
133] Z2ARAPRESHAAARAASABSESSRSARSBEARSDAE A 
[155] 5432443522422542525325 
077 LeaaAéa a2 BBS L2 244.2064 24 4 4.4 2 
[199] 4533155234344 425354434 
[221] Z2PZSBASAAARBAAARBEAAALIIUL 2A SG 
[243] 4445 S2Z2SELZLADAAAAASBASETASESESESA’ 
[265] 5 4 2 5 5 3 4 5 1 3 4 3 1 4 5 4 2 3 2 1 2 4 
[287] 王 . 生 旭 生 可 二 省 汪 导 过 本 皇 浊 互相 宇 过 互 可 全 下 号 
08S) ASE RQVSAEESEALSAARS SABALTISE424514 2 
6531] 55315 3341215327242454 sags 
G53] 315122485 5237431272532413 
[375] 5432413154152522542355 
[397] 5 3 


Within cluster sum of squares by cluster: 
[1] 53.49325 134.03814 51.86729 96.53647 
[5] 115.59778 

(between SS / total SS = 81.0 $%) 


Available components: 


[1] "cluster" "centers" "totss" 
[4] "withinss" "tot.withinss" "betweenss" 
[7] "size" "iter" "i fault" 


5) 我 们 在 6 个 维度 上 实现 理论 聚 类 分 析 ， 因 而 无 法 对 整个 分 析 结 果 进 行 可 视 化 。 然 而 我 们 可 以 创造 性 地 用 两 两 绘图 的 形式 
来 得 到 聚 类 结果 的 可 视 化 并 选取 信息 (如 图 5-1 所 示 ) : 


> pairs(auto[,2:7], col=c(1:5) [fit$cluster] ) 
6) cluster 包 中 的 clusplot 冰 数 可 以 帮助 我 们 基于 前 两 个 主 成 分 来 得 出 聚 类 的 可 视 化 。 它 通过 以 下 命令 来 生成 二 元 的 聚 类 图 
( 见 图 5-2) 。 


> library (cluster) 


> Cclusplot (auto[,10:15], fitScluster, color = TRUE, 
shade = TRUE, labels=0, lines=0) 
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Component 2 


Component 1 
这 两 个 主 成 分 解释 了 91.9% 的 点 变异 。 


工作 原理 
步骤 1 载 入 了 数据 。 


在 步骤 2 中 定义 了 一 个 便捷 的 函数 可 一 次 性 将 多 个 变量 标准 化 。 尽 管 scale 函 数 可 以 完成 这 项 工作 ， 但 它 赋予 标准 化 变量 的 名 
字 跟 原始 变量 的 名 字 是 一 样 的 ， 因 此 会 导致 混淆 。 而 这 个 便捷 函数 会 创建 更 有 意义 的 名 字 ， 它 会 在 原始 变量 之 后 加 上 z. 


第 3 步调 用 这 个 便捷 肖 数 来 标准 化 我 们 感 兴趣 的 变量 ,我 们 保留 了 No、model yearf#car names, 


在 第 4 步 中 ，kmeans 函 数 被 调用 来 实现 K 均 值 聚 类 算法 ， 然 后 输出 了 结果 对 象 。 我 们 用 k= 5 来 做 襄 明 。 在 调用 kmeans 函 数 
时 ,我 们 可 通过 传递 算法 参数 来 选择 使 用 指定 的 K- 均 值 聚 类 算法 。 如 果 这 一 参数 留 空 ， 消 数 将 默认 使 用 Hartigan Wong 算 法 ， 
也 可 使 用 Lloyd、Forgy 和 MacQueen 算 法 。 


从 输出 结果 中 ， 我 们 可 以 看 出 模型 结果 包括 了 聚 类 的 中 心 店 ， 每 一 个 样本 所 洛 入 的 篮 ， 每 个 篮 中 的 平方 和 ，K 个 篮 所 洱 兰 的 
总 体 变异 百分比 。 我 们 看 到 ?个 聚 类 艇 的 解决 方案 可 以 洱 关 81% 的 变异 。 


输出 结果 中 同样 包含 了 拟 合 模型 的 各 个 组 件 ， 从 中 我 们 可 以 抽取 相关 信息 。 下 表 忆 结 了 这 些 信息 。 


a 函数 
fit$cluster 聚 类 回 量 ， 指 出 了 每 个 样本 属于 哪 一 个 族 
fit$centers ki EEA 


fit$tot 所 用 到 的 向 量 的 总 平方 和 。 我 们 使 用 了 标准 化 后 的 变量 数值 ， 因 此 这 个 数 代表 了 这 些 标 
itSTCOUCSs 


准 化 值 的 总 平方 和 
fit$withinss BY ike PN ROE A 
fitStot .withinss 总 的 族 内 平方 和 
fitSbetweenss 将 每 一 个 样本 蔡 换 成 聚 类 中 心 之 后 所 得 到 的 总 平方 和 
fit$size 每 一 个 簇 中 的 样本 数量 
fit$iter 迭代 次 数 
fitS$ifault 算法 可 能 存在 的 问题 一 一 面向 专家 


在 步骤 ?中 绘制 了 一 个 散 点 所 阵 图 ， 这 些 点 所 填充 的 颜色 是 由 K 均 值 聚 类 所 产生 的 聚 类 癌 量 决定 的 。 


步骤 6 中 使 用 了 cluster 包 中 的 clusplot 六 数 来 生成 前 两 个 主 成 分 (参考 后 面 的 5.4 节 ) 的 二 元 图 ( 见 图 5-2) 。 从 图 5-2 的 底 
部 ， 我 们 可 以 看 到 前 两 个 主 成 分 解释 了 大 约 92% 的 总 变异 ， 因 此 可 以 认为 这 个 图 像 可 以 很 好 地 代表 所 有 6 个 原始 维度 的 聚 类 信 
= 


/IO 


一 旦 K 已 知 ， 便 可 以 实现 K- 均 值 聚 类 。 我 们 现在 提供 一 个 可 以 简化 选择 合适 K 信 的 过 程 的 方法 。 


用 一 个 便捷 的 阔 数 来 选取 K 值 


用 我 们 已 经 知道 的 方法 ， 你 可 以 尝试 各 种 K 值 ， 然 后 从 中 选择 一 个 合适 的 ， 为 了 避免 这 个 过 程 中 的 重复 性 工作 ， 我 们 建议 使 
用 下 面 这 个 便捷 函数 : 


rdacb.kmeans.plot <- function (data, num clust = 15, seed = 9876) { 
set .seed (seed) 
ss <- numeric (num clust) 


ss[1] <- (nrow(data) - 1) * sum (apply (data, 2, var)) 

for (i in 2:num clust} { 
ss[i] <- sum (kmeans (data, centers = i)Swithinss) 

} 

plot (1l :num clust, ss, type = "b", pch = 18, xlab = "# Clusters", 
ylab = "Total within ss across clusters") 


这 个 方法 会 创建 一 幅 图 ， 这 幅 图 会 帮助 你 定位 模型 性 能 增 速 放 缓 的 点 (如 图 形 中 的 肘 点 ) ， 因 此 有 时 被 称 为 “ 肘 ” 方 法 。 


BURY ERENCE DH el SAK = 1 到 k=12 的 所 有 值 对 应 的 聚 类 的 总 复 内 平方 和 (withinss) 。 我 们 也 可 以 通过 参数 num_clust 
/KK 值 设 定 一 个 上 限 。 妆 备 了 这 个 函数 之 后 ， 我 们 可 以 像 主 方法 中 那样 对 感 兴 趣 的 变量 做 标准 化 ， 然 后 运行 〈 结 果 如 图 5-3 所 


7K) : 


> rdacb.kmeans.plot (auto[,10:15] ) 
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# Clusters 


图 5-3 


从 图 5-3 来 看 ， 我 们 将 K 值 定位 在 总 的 withinss 下 降 减 组 之 处 一 一 即 图 像 的 肘 位 置 。 此 时 我 们 可 以 选择 K=4 或 者 K=5。 如 果 我 
们 确实 想 要 非常 少 的 艇 ，K=3 也 可 以 是 一 个 良好 的 选择 。 我 们 始终 可 以 通过 增加 聚 类 数量 来 得 到 一 个 非常 低 的 withinss 值 。 然 而 
我 们 希望 在 withinss 值 和 聚 类 数量 之 间 达 到 一 个 平衡 。 


5.3 ”用 系统 聚 类 法 实现 聚 类 分 析 


stats 包 中 的 hclust 函 数 有 助 于 我 们 实现 系统 聚 类 。 
准备 就 绪 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 auto-mpg.csv 文 件 放置 于 你 的 R 工 作 目录 中 。 


我 们 会 基于 mpg、cylinders、displacement、horsepower、weight 和 acceleration 变 量 对 数据 实施 系统 聚 类 。 


要 用 系统 聚 类 法 实现 聚 类 分 析 ， 请 遵循 以 下 步骤 : 
1) 读 取 数 据 : 


> auto <- read.csv("auto-mpg.csv") 


2) 定义 一 个 便捷 的 函数 将 有 关 变 量 标 准 化 并 将 结果 变量 附 在 原始 数据 后 : 


rdacb.scale.many <- function (dat, column nos) { 
nms <- names (dat) 
for (col in column nos) { 
name <- paste0 (nms [col], " z") 
dat [name] <- scale(dat[, col]) 


| 


cat (paste("Scaled", length (column nos), "variable(s) \n") ) 
dat 


3) 用 前 面 的 便捷 函数 将 感 兴趣 的 变量 标准 化 ， 我 们 忽略 了 变量 No、model year 和 car_ name: 


> auto <- rdacb.scale.many (auto, 2:7) 
> # See the variables now in auto 
> names (auto) 


[L] ANON "mpg" 
3] "eyLlinderg” "displacement" 
[5] "horsepower" "weight" 
[7] "acceleration" "model year" 
[9] "car name" "Mpg z" 
[11] "cylinders: .z" "displacement 2" 
[13] "horsepower z" "weight z" 


[15] "acceleration z" 


4) 计算 距离 矩阵 并 作为 下 一 步 中 hclust 函 数 的 输入 。 我 们 在 此 使 用 欧 氏 距离 : 


> dis <- dist(auto[,10:15], method = "euclidean") 


5) FbhclusteayscmA ees : 


> fit <- hclust (dis, method = "ward") 


6) 绘制 代表 聚 类 结果 的 系统 树 图 。 图 像 在 其 底部 看 起 来 非常 密集 (如 图 5-4 所 示 ) , AAAI TS aE PHS 
ZN: 


> plot(fit, labels = FALSE, hang = 0) 


Cluster Dendrogram 


d 
hclust (", “ward") 


图 5-4 
7) 选择 一 个 K 值 并 在 K 个 簇 的 每 一 个 复 上 放置 一 个 矩形 ， 如 图 5-5 所 示 。 我 们 在 以 下 代码 中 使 用 了 K=4: 


> rect.hclust (fit, k=4, border="blue") 
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hclust (*, "ward") 


5-5 


8) BSH AAT BAYER: 


k=4) 


cutree (fit, 


> cluster <- 


> cluster 


[1] 112131423441 4144312442d13d31d312d121 
[26] 4243 22 €@1220 43 222343534 214.3 4 3 


[51] 


1314422144214442 443423313 


[76] ,和 
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工作 原理 


2 中 定义 了 一 个 便捷 的 立 数 来 对 数据 框 中 的 一 组 变量 做 缩放 。 
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1 读 取 数据 。 


BX 
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T 


J 
“av 


在 步骤 3 中 ， 这 个 边界 函数 航 用 在 我 们 感 兴趣 的 变量 上 。 我 们 保留 了 No、model year 和 car_name。 


步骤 4 中 ， 基 于 相关 变量 的 标准 化 值 来 创建 距离 矩阵 。 我 们 计算 了 欧式 距离 ， 其 他 可 选择 的 距离 有 maximum、 


manhattan、canberra、binary 和 minkowski。 


在 步骤 95 中， 距离 矩阵 被 传递 给 hclust 函 数 用 于 创建 聚 类 模型 。 我 们 指定 了 method= "ward "来 使 用 Ward 方 法 ， 这 个 方法 会 
Re Bell AME. hclustegartszssingle, complete, average, mcquitty, median#centroidwix, 


步骤 6 中 绘制 了 系统 树 图 。 我 们 指定 了 labels=FALsSE 因 为 有 大 多 的 样本 以 至 于 打印 出 它们 只 会 增加 混乱 。 在 一 个 较 少 的 数据 
集 上 使 用 labels=TRUE 是 有 意义 的 。 参 数 hang 控 制 了 系统 树 图 底部 到 样本 标签 之 间 的 距离 。 由 于 我 们 并 不 需要 标签 ， 可 以 指定 
hang=0 来 避免 系统 树 图 底部 出 现 很 多 坚 线 。 


系统 树 图 在 其 底部 展示 了 所 有 的 样本 (在 我 们 的 图 中 多 到 无 法 区 别 ) ， 并 展示 了 艇 的 每 一 步 聚 合 。 系 统 树 图 由 一 种 特定 方式 
组 织 而 成 。 当 我 们 想 要 ， 比 如 K 个 艇 ,通过 男 一 条 水 平 线 可 穿 过 系统 树 图 中 K 条 竖 直 线 。 


步骤 7 展示 了 如 何 用 rect.hclust 消 数 来 将 样本 划分 为 选 定 数量 的 K 个 驴 。 


步骤 8 展示 了 给 定 K 后 ， 我 们 可 以 用 cutree 函 数 来 定位 数据 中 的 每 个 样本 属于 哪个 簇 。 


5.4 ”用 主 成 分 分 析 降 低 维 度 


stats 包 中 提供 了 prcomp 立 数 来 实现 主 成 分 分 析 (PCA) 。 本 万 法 同 你 展示 如 何 用 它们 实现 PCA 
准备 束 绪 


如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 BostonHousing.csv 文 件 放置 于 你 的 R 工 作 目 录 中 。 我 们 想 基 于 剩 
余 的 13 个 变量 来 预测 MEDV。 我 们 将 会 使 用 PCA 来 降 维 。 


要 用 PCA 降 维 ， 请 遵循 以 下 步骤 : 
1) 读 取 数 据 : 


> bh <- read.csv("BostonHousing.csv") 


2) 通过 观察 相 天 矩阵 来 检验 是 否 有 一 些 变 量 之 间 是 高 度 相关 的 ， 是 否 有 通过 PCA 进 行 降 维 的 可 能 。 由 于 我 们 的 兴趣 在 于 降 
低 预 测 变量 的 维度 ， 这 里 保留 了 输出 变量 MEDYV: 


> round(cor(bh[,-14]),2) 


CRIM 
ZN 
INDUS 
CHAS 


TAX 


PTRATIO 


B 
LSTAT 


CRIM 
ZN 
INDUS 
CHAS 
NOX 
RM 


TAX 
PTRATIO 
B 

LSTAT 


CRIM ZN INDUS 
1.00 -0.20 0.41 
-0.20 1.00 -0.53 
0.41 -0.53 1.00 
-0.06 -0.04 0.06 
0.42 -0.52 0.76 
-0.22 0.31 -0.39 
0.35 -0.57 0.64 
-0.38 0.66 -0.71 
0.63 -0.31 0.60 
0.58 -0.31 0.72 
0.29 -0.39 0.38 
-0.39 0.18 -0.36 
0.46 -0.41 0.60 
DIS RAD TAX 
-0.38 0.63 0.58 
0.66 -0.31 -0.31 
-0.71 0.60 0.72 
-0.10 -0.01 -0.04 
-0.77 0.61 0.67 
0.21 -0.21 -0.29 
-0.75 0.46 0.51 
1.00 -0.49 -0.53 
-0.49 1.00 0.91 
-0.53 0.91 1.00 
-0.23 0.46 0.46 
0.29 -0.44 -0.44 
-0.50 0.49 0.54 
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NOX RM 
0.42 -0.22 0 
-0.52 0.31 -0 
0.76 -0.39 
0.09 0.09 0 
1.00 -0.30 0 
.30 1.00 -0. 
0.73 -0.24 1 
-0.77 0.21 -0. 
0.61 -0.21 0 
0.67 -0.29 0 
0.19 -0.36 0 
-0.38 0.13 -0 
0.59 -0.61 0 
B LSTAT 
-0.39 0.46 
0.18 -0.41 
-0.36 0.60 
05 -0.05 
38 0.59 
13 -0.61 
27 0.60 
29 -0.50 
44 0.49 
44 0.54 
18 0.37 
00 -0.37 
37 1.00 


忽略 主 对 角 线 ， 我 们 可 以 看 到 一 些 相 关系 数 是 大 于 0.5 的 ， 因 此 PCA 可 能 有 助 于 降 维 。 


3) 我 们 可 以 通过 绘制 散 点 炬 阵 图 将 前 述 步骤 可 视 化 (如 图 5-6 所 示 ) : 


> plot (bh[,-14]) 


4) 建立 PCA 模 型 : 


> bh.pca <- prcomp(bh[,-14], 


5) 检查 所 生成 的 主 成 分 的 旋转 载 丛 : 


> print (bh. Dea} 


Standard deviations: 
[1] 2.4752472 1.1971947 1.1147272 0.9260535 0.9136826 
[6] 0.8108065 0.7316803 0.6293626 0.5262541 0.4692950 


[11] 0.4312938 0.4114644 0.2520104 


scale 


TRUE) 


Rotation: 


PC1 PC2 PC3 PC4 
CRIM 0.250951397 -0.31525237 0.24656649 -0.06177071 
ZN -0.256314541 -0.32331290 0.29585782 -0.12871159 
INDUS 0.346672065 0.11249291 -0:01594592 -0.01714571 
CHAS 0.005042434 0.45482914 0.28978082 -0.81594136 
NOX 0.342852313 0.21911553 0.12096411 0.12822614 
RM -0.189242570 0.14933154 0.59396117 0.28059184 
AGE 0.313670596 0.31197778 -0.01767481 0.17520603 
DIS -0.321543866 -0.34907000 -0.04973627 -0.21543585 
RAD 0.319792768 -0.27152094 0.28725483 -0.13234996 
TAX 0.338469147 -0.23945365 0.22074447 -0.10333509 
PTRATIO 0.204942258 -0.30589695 -0.32344627 -0.28262198 
B -0.202972612 0.23855944 -0.30014590 -0.16849850 
LSTAT 0.309759840 -0.07432203 -0.26700025 -0.06941441 
PCS PC6 PC7 PC8 
CRIM 0.082156919 -0.21965961 0.777607207 -0.153350477 
ZN 0.320616987 -0.32338810 -0.274996280 0.402680309 
INDUS -0.007811194 -0.07613790 -0.339576454 -0.173931716 
CHAS 0.086530945 0.16749014 0.074136208 0.024662148 
NOX 0.136853557 -0.15298267 -0.199634840 -0.080120560 
RM -0.423447195 0.05926707 0.063939924 0.326752259 
AGE 0.016690847 -0.07170914 0.116010713 0.600822917 
DIS 0.098592247 0.02343872 -0.103900440 0.121811982 
RAD -0.204131621 -0.14319401 -0.137942546 -0.080358311 
TAX -0.130460565 -0.19293428 -0.314886835 -0.082774347 
PTRATIO -0.584002232 0.27315330 0.002323869 0.317884202 
B -0.345606947 -0.80345454 0.070294759 0.004922915 
LSTAT 0.394561129 -0.05321583 0.087011169 0.424352926 
pC9 PC10 PELL PC12 
CRIM 0.26039028 -0.019369130 -0.10964435 -0.086761070 
ZN 0.35813749 -0.267527234 0.26275629 0.071425278 
INDUS 0.64441615 0.363532262 -0.30316943 0.113199629 
CHAS -0.01372777 0.006181836 0.01392667 0.003982683 
NOX -0.01852201 -0.231056455 0.11131888 -0.804322567 
RM 0.04789804 0.431420193 0.05316154 -0.152872864 
AGE -0.06756218 -0.362778957 -0.45915939 0.211936074 
DIS -0.15329124 0.171213138 -0.69569257 -0.390941129 
RAD -0.47089067 -0.021909452 0.03654388 0.107025890 
TAX -0.17656339 0.035168348 -0.10483575 0.215191126 
PTRATIO 0.25442836 -0.153430488 0.17450534 -0.209598826 
B -0.04489802 0.096515117 0.01927490 -0.041723158 
LSTAT -0.19522139 0.600711409 0.27138243 -0.055225960 


PC13 


CRIM 0.045952304 


ZN -0.080918973 
INDUS -0.251076540 
CHAS 0: 03532715 
NOX 0.043630446 
RM 0.045567096 
AGE -0.038550683 
DIS -0.018298538 
RAD -0.633489720 
TAX 0.720233448 
PTRATIO 0.023398052 
B -0.004463073 
LSTAT 0.024431677 


et aie EE 


6) 检查 各 主 成 分 的 重要 度 : 


> summary (bh.pca) 


Importance of components: 


PC1 
Standard deviation 2.4752 
Proportion of Variance 0.4713 
Cumulative Proportion 0.4713 
PC5 
Standard deviation 0.91368 
Proportion of Variance 0.06422 
Cumulative Proportion 0.80732 
PCS 
Standard deviation 0.5263 
Proportion of Variance 0.0213 
Cumulative Proportion 0.9508 
PC13 
Standard deviation 1.2522 
Proportion of Variance 0.00489 
Cumulative Proportion 1.00000 


PC2 
a pe yr 3°. ae 
0-1103 ‘0 
0.5816 0 
PC6 
0.81081 
0.05057 
0.85789 
PC10 
0.46930 
0.01694 
0.96778 


Peo PC4 
-11473 0.92605 
05559 0.06597 
67713 0.74310 

PGZ PC8 
0.73168 0.62936 
0.04118 0.03047 
0.839307 0.82954 

PEIL PELA 
0.43129 0.41146 
0.01431 0.01302 
0-386209 0-993511 


MRSWARAD UPA LESS), BUC SEALS S AIMS HIIO%. 


7) ARAB RAPA S SER NSS Ba Tat. 


用 以 下 命令 得 到 条 形 图 (如 图 5-7 所 示 ) : 


> # barplot 
> plot (bh.pca) 


Variances 


i : 
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用 以 下 命令 得 到 雁 石 图 ( 见 图 5-8) : 


ce 
局 
p m 
£ 
而 
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> # scree plot 
> plot(bh.pca, type = "lines") 


8) 为 PCA 的 结果 绘制 双 信 息 图 ( 见 图 5-9) : 


二 全 


PC2 
0.00 0.05 


-0.05 


-0.10 


9) 用 bh.pca 的 x 组 件 来 查看 计算 出 的 样本 的 主 成 分 值 : 


> head(bh.pcasx, 


[1,] 
[2,] 
Em 


(1, ] 
(2, ] 
[3,] 


[1,] 
[2,] 
[3,] 
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> bh.pcaSrotation 


> bh.pca$Ssdev 


工作 原理 


步骤 1 读 取 数据 。 


步骤 2 生成 了 有 关 维 度 的 相关 系数 和 矩阵 并 检查 其 中 是 否 有 能 用 PCA 降 维 的 人 迹象。 如果 绝 大 多 数 的 相关 系数 都 很 小 ， 则 PCA 就 


可 能 无 法 进行 降 维 。 


的 。 


3) 

PC1 PC2 
.096223 0.7723484 
-455811 0.5914000 
.072547 0.5990466 

PC5 PC6 
„1226521 -0.3150264 O0. 
1956820 0.2639620 0- 
-.9336102 0.4476516 0- 

pC9 PC10 
-42451671 -0.63957348 
-16679701 -0.08415319 
-06970615 0.18020170 

PC12 PC13 
01942101 0.36561351 
.12567304 -0.07064958 
-13319472 -0.01400794 


用 以 下 命令 得 看 旋转 载荷 以 及 标准 卷 : 


PC3 PC4 


0.3426037 0.8908924 
-0.6945120 0.4869766 
0.1669564 0.7384734 


PC7 PC8 
3183257 -0.2955393 
5533137 0.2234488 
4840809 -0.1050622 

PC11 
-0 . 03296774 
-0.64017631 
-0.48707471 


RW AAR SHEE, BERD AT NE, 


步骤 4 使 用 prcomp 函 数 建立 了 PCA 模 型 。 我 们 用 scale=TRUE 来 生成 一 个 基于 相关 系数 和 矩阵 的 模型 而 非 基 于 协 方 差 均 值 的 模 


步骤 ?输出 了 模 


步骤 6 中 summary 函 数 被 用 于 获取 此 模型 的 另 一 些 不 同 的 信息 。 这 些 信 息 在 显示 的 时 候 同样 是 按照 各 成 分 的 重要 度 降序 排列 
对 于 每 一 个 主 成 分 ， 这 里 给 出 了 其 标准 差 、 方 郑 百 分 比 ， 以 及 昧 积 的 方才 百分比 。 我 们 可 以 用 这 些 来 定位 肖 头 了 数据 集中 绝 


大 多 数 变异 的 成 分 。 


Fug 


二 一口 


果 。 这 里 显示 了 所 用 变量 的 标准 奉 ， 按 照 重要 度 降序 排 刘 所 有 主 成 分 的 旋转 载体 。 


例如 ， 这 个 输出 告诉 我 们 13 个 主 成 分 中 的 前 7 个 贡献 了 总 体 方差 的 90%。 


步骤 7 中 使 用 plot 国 数 绘制 了 PCA 所 贡献 的 万 差 的 条 形 图 和 雁 石 图 。 


步骤 8 展示 了 如 何 生成 双 信 息 图 。 


它 使 用 前 两 个 主 成 分 作为 主轴 ， 并 在 图 中 表现 出 了 每 


5-9 中 上 方 和 右 侧 的 坐标 轴 对 应 看 数据 点 在 两 个 主 成 分 上 的 分 值 。 


步骤 9 中 predict 消 数 税 用 于 查看 每 个 数据 点 在 主 成 分 上 的 分 值 。 可 以 用 这 个 消 数 来 计算 新 数据 的 主 成 分 分 值 : 


> predict (bh.pca, 


newdata =... 


在 这 两 个 主 成 分 上 的 载 何 。 


Om MAS PSII 


6.1 引言 
本 章 将 通过 一 些 精 心 挑 选 的 方法 来 涵盖 这 一 主题 。 stats 包 提供 了 一 些 基本 的 功能 ， 其 


R 在 时 间 序 列 分 析 上 有 着 非凡 的 功能 。 
他 几 个 包 则 提供 了 更 进一步 的 功能 。 


Om ”从 历史 中 学 习 一 一 时 间 序 列 分 析 


6.1 引言 
本 章 将 通过 一 些 精 心 挑 选 的 方法 来 涵盖 这 一 主题 。stats 包 提供 了 一 些 基本 的 功能 ， 其 


R 在 时 间 序 列 分 析 上 有 着 非 几 的 功能 
他 几 个 包 则 提供 了 更 进一步 的 功能 。 


6.2 BEREH 


这 个 “大 杂烩 ”万 法 向 你 展示 了 R 中 几 个 与 日 期 有 关 的 操作 。R 在 内 部 将 日 期 表示 为 1970 年 1 月 1 


R 基 础 包 提供 了 日 期 功能 。 
日 之 后 的 天 数 。 


EEA 
在 本 方法 中 ， 我 们 将 只 使 用 基础 包 中 的 功能 ， 且 不 会 使 用 外 部 数据 ， 因 此 你 无 须 做 任何 准备 。 


R 在 内 部 将 日 期 表示 为 其 距离 1970 年 1 月 1 日 的 天 数 : 


1) 获取 今天 的 日 期 : 


> Sys.Date() 


2) MAE Pele BHAI: 


> # Supply year as two digits 
> # Note correspondence between separators in the date string and 
the format string 


> as.Date("1/1/80", format = "%m/%d/%y") 

[1] "1980-01-01" 

> # Supply year as 4 digits 

> # Note uppercase Y below instead of lowercase y as above 
> as.Date("1/1/1980", format = "%m/%d/%Y") 

[1] "1980-01-01" 

> # If you omit format string, you must give date as "yyyy/mm/dd" 
or as "yyyy-mm-dd" 

> as.Date("1970/1/1") 

[1] "1970-01-01" 

> as.Date("70/1/1") 

[1] "0070-01-01" 


3) 在 字符 串 格 式 中 使 用 其 他 分 隔 符 (本 例 使 用 了 连 字符 ) ， 同 时 也 查看 了 其 底层 的 数值 : 


> dt <- as.Date("1-1-70", format = "%m-%d-%y") 
> as.numeric (dt) 


[1] D 


4) 探索 其 他 字符 串 格式 选项 : 


> as.Date("Jan 15, 2015", format = "%Sb %&d, $Y") 


[II "2015-01-15" 


> as.Date("January 15, 15", format = "%B %d, %y") 


[1] "2015-01-15" 


5) 通过 修改 数字 格式 类 型 来 创建 日 期 : 


> dt <- 1000 

> class(dt) <- "Date" 

> dt # 1000 days from 1/1/70 
[1] "1972-09-27" 


> dt <- -1000 


> class(dt) <- "Date" 
> dt # 1000 days before 1/1/70 


[1] "1967-04-07" 

6) 通过 设 定 日 期 原点 和 距离 天 数 来 创建 日 期 : 
> as.Date(1000, origin = as.Date("1980-03-31") ) 
[1] "1982-12-26" 
> as.Date(-1000, origin = as.Date("1980-03-31") ) 
[1] "1977-07-05" 


7) 检 合 日 期 组 件 : 


> dt <- as.Date(1000, origin = as.Date("1980-03-31")) 
> dat 


[1] "1982-12-26" 


> # Get year as four digits 
> Tormat(dt, TAT) 


iy "ISBA" 


> # Get the year as a number rather than as character string 


> as.numeric(format(dt, "SY")) 
[1] 1982 


> # Get year as two digits 
> format(dt, "%y") 


[1] "go" 


> # Get month 
> format(dt, "tm") 


[1] mn12nm 
> as.numeric (format (dt, "%m") ) 
LLI Te 


> # Get month as string 
> FOr (dt, "SD" 


[1] "Dec" 


> format(dt, "tB") 


[1] "December" 


> months (dt) 


[1] "December" 


> weekdays (dt) 


[1] "Sunday" 


> quarters (dt) 


[1] "Q4" 
> julian (dt) 
[1] 4742 


aLr OE 
[1] "1970-01-01" 


> julian(dt, origin 


[1] 1000 
attri "Origin" 
[1] "1980-03-31" 


工作 原理 


步骤 1 展示 了 如 何 获取 系统 日 期 。 


as.Date("1980-03-31")) 


步骤 2~ 步 又 4 展示 了 如 何 从 字符 串 中 生成 日 期 。 可 以 看 到 ， 通 过 指定 合适 的 字符 串 格 式 ， 我 们 几乎 可 以 从 任何 字符 串 表 达 式 


中 读 取 日 期 。 只 要 在 字符 串 格 式 中 使 用 了 同样 的 分 


格式 分 类 符 


昼 待 号， 我 们 束 可 以 使 用 任何 分 阳 待 。 下 表 忌 结 了 日 期 组 件 的 格式 选项 : 


描 
某 个 月 中 的 第 几 日 ， 例 如 ，15 
代表 月 份 的 数字 ， 例 如 ，10 
月 份 的 字符 串 形式 的 缩写 ， 例如 ，"Jan" 
月 份 的 字符 串 形 式 的 完整 名 称 ， 例 如 ，"January" 
两 位 数字 的 年 份 ， 例 如 ，87 
四 位 数字 的 年 份 ， 例 如 ，2001 


Sa 


步骤 5 显示 了 如 何 将 一 个 整数 通过 改变 类 型 成 为 一 个 日 期 。R 在 内 部 将 日 期 表示 为 从 1970 年 1 月 1 日 开始 的 天 数 ， 因 此 0 代表 
了 1970 年 1 月 1 日 。 我 们 可 以 将 正 数 和 负数 转换 为 日 期 。 负 数 会 给 出 1/1/1970 之 前 的 日 期 。 


步骤 6 展示 了 如 何 找 到 距离 一 个 给 定 日 期 (原点) 给 定 天 数 的 日 期 。 


步骤 7 展示 了 如 何 用 format 消 数 和 恰当 指定 的 格式 (WER) 检查 一 个 日 期 对 象 的 各 个 独立 组 件 。 步 又 7 同样 展示 了 


months、weekdays 和 julian 函 数 的 用 法 。 它 们 可 用 于 得 到 一 个 日 期 的 对 应 月 份 ， 周 几 和 癸 略 日 。 如 果 我 们 在 julian 函 数 中 省 略 
TRA, WRI 1/1/1970 


6.3 对 日 期 对 象 进 行 操作 


R 提 供 了 很 多 有 用 的 操作 日 期 对 象 的 手段 ， 比 如 日 期 的 加 和 减 以 及 日 期 序列 的 创建 。 本 方法 展示 了 很 多 此 类 操作 的 实际 用 
法 。 更 多 关于 创建 和 检查 日 期 对 象 的 细节 请 参考 6.2 刷 。 


ER ZR 


R 基 础 包 中 提供 了 日 期 功能 ， 你 无 须 做 任何 额外 的 准备 工作 。 


1) 在 日 期 对 象 上 加 上 或 减 去 天 数 : 


> dt <- as.Date("1/1/2001", format = "%m/%d/%Y") 
S -OE 


[1] "2001-01-01" 

> dt + 100 # Date 100 days from dt 
[1] "2001-04-11" 

> dt + 31 

[1] "2001-02-01" 


2) 让 两 个 日 期 对 象 相 减 从 而 找 出 两 个 日 期 相 隅 的 天 数 : 


> dtl <- as.Date("1/1/2001", format = "%m/%d/tY") 
> adt2 <- as.Date("2/1/2001", format = "Sm/%d/sY") 
> dt1-dt1 


Time difference of 0 days 


> dt2-dt1 


Time difference of 31 days 


> dtl-dt2 


Time difference of -31 days 


> as.numeric (dt2-dt1) 


ER ies! 


3) 比较 日 期 对 象 的 大 小 : 


w Goes > OEL 


[1] TRUE 


> dt2 == dtl 


[1] FALSE 


4) 创建 日 期 序列 : 


> dl <- as.Date("1980/1/1") 

> d2 <- as.Date("1982/1/1") 

> # Specify start date, end date and interval 
> seq(dl, d2, "month") 


[1] "1980-01-01" "1980-02-01" "1980-03-01" "1980-04-01" 
[5] "1980-05-01" "1980-06-01" "1980-07-01" "1980-08-01" 
[9] "1980-09-01" "1980-10-01" "1980-11-01" "1980-12-01" 
[13] "1981-01-01" "1981-02-01" "1981-03-01" "1981-04-01" 
[17] "1981-05-01" "1981-06-01" "1981-07-01" "1981-08-01" 
[21] "1981-09-01" "1981-10-01" "1981-11-01" "1981-12-01" 
[25] "1982-01-01" 


> d3 <- as.Date ("1980/1/5") 
> seq(d1, d3, "day") 


[1] "1980-01-01" "1980-01-02" "1980-01-03" "1980-01-04" 
[5] "1980-01-05" 


> # more interval options 
> seq(d1, d2, "2 months") 


[1] "1980-01-01" "1980-03-01" "1980-05-01" "1980-07-01" 
[5] "1980-09-01" "1980-11-01" "1981-01-01" "1981-03-01" 
[9] "1981-05-01" "1981-07-01" "1981-09-01" "1981-11-01" 
[13] "1982-01-01" 


> # Specify start date, interval and sequence length 
> seq(from = dl, by = "4 months", length.out = 4 ) 


[1] "1980-01-01" "1980-05-01" "1980-09-01" "1981-01-01" 


5) 基于 区 间 找 出 给 定 日 期 之 前 或 之 后 的 日 期 : 


> seq(from = dl, by = "3 weeks", length.out = 2) [2] 


[1] "1980-01-22" 


工作 原理 
步骤 1 展示 了 如 何 从 一 个 日 期 上 加 上 或 减 去 天 数 来 得 到 结果 。 
步骤 2 展示 了 如 何 让 两 个 日 期 相 减 求 出 它们 之 间 的 天 数 。 其 结果 是 一 个 difftime 对 象 ， 当 需要 时 你 可 以 将 它 转换 成 数字 。 
步骤 3 展示 了 日 期 乙 间 的 逻辑 比较 。 


步骤 4 展示 了 两 种 创建 日 期 序列 的 方法 。 一 种 可 以 指定 开始 日 期 from、 结 束 日 期 to 以 及 用 by 指定 序列 元 素 之 间 的 用 字符 串 表 
示 的 固定 间隔 。 另 一 种 可 以 指定 开始 日 期 ffom、 时 间 间 隔 ， 以 及 你 想 要 的 序列 元 素 的 个 数 。 当 使 用 后 一 种 方法 时 ， 你 必须 写 明 
参数 名 称 。 


步骤 5 展示 了 你 可 以 用 更 加 灵活 的 时 间 间 隔 来 创建 序列 。 


6.4 ”对 时 间 序 人 7 数据 做 急 步 分 析 


在 创建 合适 的 时 间 序 列 对 象 之 前 ， 你 可 能 想 要 先 做 一 些 基 础 分 析 。 本 万 法 向 你 展示 如 何 完成 这 项 工作 。 
ER ZR 


base 包 提供 了 所 有 必需 的 功能 。 如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 它们 存放 于 你 的 R 工 作 目 录 中 。 


1) 读 取 数据 文件 。 我 们 将 使 用 的 数据 包含 了 1999 年 3 月 11 日 至 2015 年 11 月 15 日 之 间 沃 尔 玛 的 股价 (从 雅虎 金融 下载) : 


> wm <- read.csv("walmart.csv") 
2) 以 折线 图 的 形式 查看 数据 : 


> plot (wmSAdj.Close, type = "1") 


数据 可 以 用 如 图 6-1 所 示 的 折线 图 查看 。 


ik 
iñ 
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Q 
q 
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2000 3000 


Index 


3) 计算 并 绘制 每 日 股价 变动 : 


> d <- diff (wm$Ad]j .Close) 
> plot(d, type = "1") 


绘制 出 的 股价 日 变动 图 如 图 6-2 所 示 。 


2000 3000 


Index 


4) 创建 股价 日 变动 的 直方 图 ， 并 添加 密度 图 : 


> hist(d, prob = TRUE, ylim = c(0,0.8), main = "Walmart stock", 
col = "blue") 


> lines(density(d), lwd = 3) 


图 6-3 所 示 的 直方 图 展示 了 每 日 股价 变动 : 


Walmart stock 


5) 计算 一 期 回报 率 : 


wmm <- read.csv("walmart-monthly.csv") 
wmm.ts <- ts (wmm$Ad] .Close) 

d <- diff(wmm.ts) 

wmm. return <- d/lag(wmm.ts, k=-1) 

hist (wmm.return, prob = TRUE, col = "blue") 


V V V V V 


图 6-4 所 示 的 直方 图 为 前 述 命令 的 输出 : 


Histogram of wmm.return 


wmm.return 


工作 原理 
步骤 1 读 取 数据 ， 步 骤 2 将 其 绘制 成 折 续 图 。 


步骤 3 用 diff 函 数 生成 一 期 差分 ， 然 后 用 plot 函 数 绘制 出 股价 差 。 默 认 情 况 下 ，diff 函 数 计算 一 期 差分 。 你 可 以 用 参数 来 计算 
更 大 延迟 的 差分 。 例 如 ， 下 面 的 命令 计算 了 二 期 滞后 差分 : 


> diff (wmmSAdj.Close, lag = 2) 


步骤 4 生成 了 一 期 价格 变化 的 直方 图 。 这 里 使 用 了 prob=TRUE 来 生成 基于 频率 的 直方 图 。 然 后 在 其 上 添加 了 密度 图 来 得 到 
分 布 形状 的 一 个 局 粒度 图 像 。 


步骤 5 计算 了 股票 的 一 期 回报 率 。 它 通过 将 一 个 周期 内 的 股价 变动 除 以 此 周期 前 端的 股价 来 得 到 回报 率 。 然 后 基于 这 些 回报 
率 生 成 了 直方 图 。 


6.5 ”使 用 时 间 序 列 对 象 


在 本 方法 中 ， 我 们 关注 各 种 用 于 创建 和 绘制 时 间 序 列 对 象 的 功能 ,我 们 将 考虑 包含 单个 和 多 个 时 间 序 列 的 数据 。 
EEA 


如 果 你 还 没有 下 载 本 草 的 数据 文件 ， 现 在 去 下 载 并 确保 将 这 些 文件 放置 于 你 的 R 工 作 目 录 中 。 


1) 读 取 数据 。 文 件 含 有 100 行 和 一 个 名 为 sales 的 列 : 
> s <- read.csv("ts-example.csv") 

2) 将 数据 转换 成 一 个 不 市 有 任何 显 式 时 间 标 记 的 最 简 时 间 序 列 : 
> Bobs <= Eas) 
> class(s.ts) 


[1] "tg" 


3) 绘制 时 间 序 列 (如 图 6-5 所 示 ) : 


> plot(s.ts) 


4) DENRA AA SAAT PSUR: 


> s.ts.a <- ts(s 


> s.tS.a 
Time Series: 
Stare = 2002 
End = 2101 
Frequency = 1 


sales 
[1,] 51 
[2,] 56 
[3,] 37 
[4,] 101 
Sis] 66 


(output truncated) 


> plot(s.ts.a) 


> 有 EEE 


= 2002) 


> # results show that R treated this as an annual 
> # time series with 2002 as the starting year 


前 述 命令 的 结果 如 图 6-6 所 示 。 


运行 以 下 命令 来 创建 一 个 月 度 时 间 序 列 : 


> # Create a monthly time 


> s.ts.m <- ts(s, 
m TE - A ae i ii 


Jan Feb Mar 
2002 51 56 37 
2003 90 102 79 
2004 106 100 114 
2005 155 167 169 


2006 215 222 205 
2007 250 219 242 
2008 269 257 279 
2009 314 290 312 
2010 340 348 354 
> plocta.te.m) 


start 


Apr 
LUL 

95 
La 
1392 


202 
241 
Oe 
SES 
jae 


May 
66 
95 

119 

170 


203 
267 
At 
334 


# note x 


series 


= ¢(2002,1), 


Jun 

63 
LUL 
114 
180 


209 
249 
314 
307 


Jul 

45 
128 
125 
175 


200 
253 
288 
el El 


axis on 


Aug 

68 
109 
L7 
207 


199 
242 
286 
321 


plot 


frequency = 


Sep 

70 
139 
149 
164 


218 
254 
290 
239 


Jer 
107 
119 
i 
204 


221 
ae 
288 
348 


Nov 

86 
124 
35 
180 


225 
298 
304 
323 


12) 


Dec 
102 
116 
L92 
203 


212 
260 
291 
342 


图 6-7 为 前 述 命令 的 输出 结果 。 


> # Specify frequency = 4 for quarterly data 
> s.ts.q <- ts(s, start = 2002, frequency = 4) 
ae -FE | 


Gert. OETA Orr (CE 
2002 ak 56 si SEDI 
2003 66 63 45 68 
2004 7O 107 86 102 
2005 90 102 79 = he 
2006 95 101 128 109 
(output truncated) 
> plot(s.ts.q) 


5) AAFIN (这 里 用 到 了 前 一 步 中 创建 的 sts.m 对 象 ) : 


> # When does the series start? 
> start(s.ts.m) 

[1] 2002 1 

> # When does it end? 

> end(s.ts.m) 

Lir 2010 4 

> # What is the frequency? 

> frequency (s.ts.m) 

二] 12 


6) 创建 一 个 包含 多 个 时 间 序 列 的 时 间 序 列 对 象 。 这 个 数据 文件 包含 了 美国 1980 年 至 2014 年 每 月 的 面粉 与 无 铝 汽 ;由 消费 价 
格 (从 美国 劳工 统计 局 网 站 下 载 ) : 


> prices <- read.csv("prices.csv") 
> prices.ts <- ts(prices, start=c(1980,1), frequency = 12) 


7) 绘制 一 个 包含 多 条 时 间 序 列 的 时 间 序 列 对 象 : 
> plot (prices.ts) 
绘制 出 的 图 形 以 两 个 单独 面板 的 形式 展现 如 图 6-8 所 示 。 
> # Plot both series in one panel with suitable legend 


> plot (prices.ts, plot.type = "single", col = 1:2) 
> legend("topleft", colnames(prices.ts), col = 1:2, lty = 1) 


图 6-9 展 示 了 将 两 个 序列 绘制 在 一 个 面板 上 的 图 像 。 
工作 原理 

步骤 1 读 取 了 数据 。 

步骤 2 用 ts 消 数 从 原始 数据 中 生成 时 间 序 列 对 象 。 


步骤 3 用 plot 函 数 生 成 时 间 序 列 的 折线 图 。 我 们 友 现 时 间 轴 并 没有 提供 多 少 信息 。 时 间 序 列 对 象 可 以 用 更 友好 的 形式 来 表达 
时 间 。 


prices.ts 


white_flour 
40020 0.35 0.50 


unleaded_gas 


1980 1985 1990 1995 2000 2005 2010 2015 


Time 


一 一 White flour 
一 一 Unleaded gas 


prices.ts 


1980 1985 1990 1995 2000 2005 2010 


Time 


图 6-9 


步骤 4 展示 了 如 何 创建 一 个 璐 有 更 好 的 时 间 标 记 的 时 间 序 列 对 象 。 它 展示 了 我 们 如 何 将 一 组 数据 序列 作为 年 度 、 月 度 或 季度 
时 间 序 列 。 参 数 start 和 frequency 有 助 于 我 们 控制 这 些 数据 序列 。 


尽管 我 们 这 里 提供 的 时 间 序 列 只 是 一 系列 的 值 ， 实 际 上 我 们 的 数据 隐 含 地 附带 有 时 间 标 记 。 人 例如， 数据 可 能 是 一 个 年 度数 
字 、 月 度数 字 或 季度 数字 (或 者 其 他 ， 如 每 10 秒 对 某 件 事 物 做 一 次 观测 的 记录 值 ) 。 仅 仅 给 出 原始 数字 (在 我 们 的 例子 中 ， 即 
ts-example.csv) ，ts 国 数 无 法 知道 时 间 方 面 的 信息 ， 同 时 默认 情况 下 假设 不 仓 人 在 次 要 时 间 区 间 。 


我 们 可 以 用 frequency 参 数 来 告知 ts 如 何 构建 数据 所 对 应 的 时 间 信 息 。 这 个 frequency 参 数控 制 了 一 个 主要 时 间 区 间 中 有 几 
个 次 要 时 间 区 间 。 如 果 我 们 没有 显 式 地 指定 它 ， 那 么 frequency 默 认 取 值 为 1。 因 此 ， 以 下 代码 将 数据 视 作 一 个 从 2002 年 开始 的 
年 度 序列 : 


> s.ts.a <- ts(s, start = 2002) 


另 一 方面 ， 下 面 的 代码 将 数据 视 为 一 个 从 2002 年 1 月 开始 的 月 度 时 间 序 列 。 如 果 我 们 指定 start 参 数 为 一 个 数 ， 则 R 将 此 序列 
当 作 从 指定 的 start 时 期 的 第 一 个 子 时 期 开始 的 时 | 间 序 列 。 当 我 们 指定 frequency 为 一 个 不 同 于 1 的 数 时 ，start 参 数 可 以 用 一 个 癌 
量 ， 比 如 c (2002, 1) 来 定义 这 个 序列 ， 它 的 主 时 期 ， 以 及 序列 开始 时 所 处 的 子 时 期 。c (2002, 1) 代表 2002 年 1 月 : 


> s.ts.m <- ts(s, start = c(2002,1), frequency = 12) 
类 似 地 ， 下 列 代码 将 数据 当 作 一 个 季度 序列 ， 从 2002 年 的 第 一 个 季度 开始 : 

> s.ts.g <- ts(s, start = 2002, frequency = 4) 
参数 frequency 的 取 值 为 12 和 4 时 有 其 特别 意义 一 一 它们 代表 了 月 度 和 季度 时 间 序 列 。 


我 们 可 以 指定 start 和 Mend， 或 其 中 之 一 ， 或 都 不 指定 。 当 我 们 不 指定 其 中 任何 一 个 时 ，R 将 start 当 作 1 并 根据 数据 点 的 个 数 
来 确定 end 的 值 。 当 我 们 指定 其 中 之 一 时 ，R 会 根据 数据 点 的 个 数 来 确定 另 一 个 。 


昌 然 start 和 end 在 计算 时 并 不 重要 ， 但 frequency 在 确定 周期 性 特征 时 扮演 着 重要 角色 。 

如 果 有 其 他 特殊 的 时 间 序 列 ， 我 们 可 为 frequency 参 数 指定 适当 的 值 。 这 里 有 两 个 例子 : 

每 小 时 作为 一 个 周期 ， 每 10 分 钟 进 行 一 次 测量 ， 我 们 可 以 将 frequency 指 定 为 6。 

` 每 天 作为 一 个 周期 ， 每 10 分 钟 进行 一 次 测量 ， 我 们 可 以 将 frequency 指 定 为 24X6 (每 天 24 小 时 ， 每 小 时 测量 6 次 ) 。 
步骤 5 展示 了 用 start、end 和 frequency 函 数 来 查询 时 间 序 列 对 象 。 


DER OFIA> AR / Fea S RAMP AS SSATP UA SHE SCE, 


6.6 DARRENA 


stats 包 提供 了 很 多 处 理 时 间 序 列 的 函数 。 本 方法 涵盖 了 decompose 和 stl 函 数 的 用 法 ， 它 们 可 以 从 时 间 序 列 中 抽取 出 周期 
性 、 趋 势 性 和 随机 性 的 成 分 。 


ER ZR 


如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 这 些 文件 放置 于 你 的 R 工 作 目 录 中 。 


按 以 下 步 又 分 解 时 间 序 列 | 

1) 读 取 数据 。 此 文件 包含 了 来 自 美国 劳工 局 的 1980 年 至 2014 年 无 铅 汽油 和 面粉 的 月 度 价格 数据 : 
> prices <- read.csv("prices.csv") 

2) 创建 并 绘制 汽油 价格 的 时 间 序列 : 


> prices.ts = ts(prices, start = c(1980,1), frequency = 12) 
> plot (prices.ts[,2]) 


3) BAER TS AHIMSAI RSE. AARAA ERS ATES, Ale, KARRATHA. ARRAS 
使 用 对 数 价格 来 让 它 有 具有 可 加 性 。 使 用 stl 浮 数 对 汽油 价格 实现 一 个 Loess 分 解 : 


> prices.stl <- stl(log(prices.ts[,1]), s.window = 
"period") 


4) 绘制 st| 的 结 


> plot (prices.stl) 


前 述 命 令 的 输出 结果 如 图 6-10 所 示 。 


5) 另外 你 也 可 以 用 decompose 函 数 来 按照 移动 平均 来 做 分 解 : 


> prices.dec <- decompose (log(prices.ts[,2])) 
> plot (prices.dec) 


图 6-11 展 示 了 前 述 命令 的 输出 。 
6) 为 汽油 价格 做 周期 性 调整 并 画图 : 
> gas.seasonally.adjusted <- prices.ts[,2] - 


prices .decSseasonal 
> plot (gas.seasonally.adjusted) 
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Decomposition of additive time series 
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图 6-11 


工作 原理 
SCRUM Ss, SRNR. BZA. SPADA. 


步骤 3 展示 了 用 st 函数 将 一 个 加 法 时 间 序 列 进行 分 解 。 由 于 我 们 之 前 绘制 的 图 形 了 预示 着 波动 的 振幅 随 着 时 间 递 增 ， 因 此 说 明 
这 可 能 是 一 个 乘法 时 间 序 列 ， 我 们 用 log 消 数 将 其 转换 成 加 法 时 间 序 列 ， 然 后 将 其 分 解 。 


步骤 4 用 plot 函 数 绘制 出 结果 。 
步骤 5 用 decompose 函 数 通过 移动 平均 来 分 解 这 个 时 间 序 列 然后 绘制 图 形 。 


步骤 6 从 汽油 价格 的 原始 时 间 序 列 中 减 去 周期 性 成 分 来 修正 汽油 价格 ， 然 后 绘制 出 调整 后 的 时 | 间 序列 。 


6.7 ”对 时 间 序 列 数据 做 滤波 


本 方法 展示 了 我 们 如 何 用 stats 包 中 的 filter 函 数 计算 移动 平均 。 


ER ZR 


如 果 你 还 没有 下 载 本 草 的 数据 文件 ， 现 在 去 下 载 并 确保 将 这 些 文件 放置 于 你 的 R 工 作 目 录 中 。 


要 对 时 间 序 列 数据 做 滤波 ， 请 遵循 以 下 步骤 : 
1) 读 取 数 据 。 这 个 文件 包含 了 某 种 产品 的 虚构 的 周 销售 量 : 
> S <- read.csv("ts-example.csv") 
2) 创建 滤波 同 量 ， 我 们 假设 一 个 七 期 滤 流 : 
on =< 7 


> wts <- rep(l1/n, n) 


3) 计算 对 称 滤波 值 (三 个 过 去 值 、 一 个 当前 值 和 三 个 未 来 值 ) 和 单 侧 滤 波 值 (一 个 当前 值 和 入 个 过 去 值 ) : 


> s.filterl <- filter(sSsales, 


filter = wts, sides 
> s.filter2 <- filter(sSsales, 


filter = wts, sides 


2) 
1) 


4) 绘制 滤波 后 的 值 : 


> lines(s.filterl, col = "blue", lwd = 3) 


> lines(s.filter2, col = "red", lwd = 3) 


> plot(s$sales, type = "1") 


画 出 的 滤波 后 的 值 如 图 6-12 所 示 。 


图 6-12 


工作 原理 


步骤 1 读 取 了 数据 。 
步骤 2 创建 了 滤波 权 值 ， 我 们 使 用 了 一 个 七 期 窗口 。 这 意味 着 当前 值 和 六 个 其 他 值 的 加 权 平 均 组 成 了 当前 点 滤波 后 的 值 。 


步骤 3 计算 了 双 侧 滤波 (当前 值 和 三 个 过 去 值 和 三 个 未 来 值 的 加 权 平 均 ) 和 单 侧 滤波 (基于 当前 值 和 六 个 早期 值 ) 。 


步骤 4 绘制 出 了 原始 数据 ， 对 称 滤波 和 单 侧 渡 波 。 我 们 可 以 看 出 双 侧 滤波 能 更 早 地 退路 到 价格 变化 。 


6.8 用 HoltWinters 方 法 实现 平 消 和 预测 


stats 包 具有 用 HoltWinters 万 法 对 趋势 和 周期 性 进行 指数 平滑 的 功能 ， 并 且 forecast 包 扩展 了 这 一 功能 使 之 可 以 用 于 预测 。 
本 万 法 面向 这 些 主题 。 


ER MEA 


如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 这 些 文件 放置 于 你 的 R 工 作 目 录 中 。 安 和 并 加 载 forecast 包 . 


要 使 用 HoltWinters 万 法 进行 指数 平滑 和 预测 ， 请 遵循 以 下 步 又: 
1) 读 取 数据 。 这 个 文件 包含 了 从 雅虎 金融 上 获取 的 Infosys 公 司 从 1999 年 3 月 至 2015 年 1 月 的 月 度 股 价 数 据 : 
> infy <- read.csv("infy-monthly.csv") 


2) 创建 时 间 序 列 对 象 : 


> infy.ts <- ts(infy$Adj.Close, start = c(1999,3), 
frequency = 12) 


3) 应 用 HoltWinters 指 数 平滑 : 
> infy.hw <- HoltWinters(infy.ts) 


4) 绘制 结果 : 


> plot(infy.hw, col = "blue", col.predicted = "red") 


绘制 出 的 结果 如 图 6-13 所 示 。 
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检查 结果 : 


> # See the squared errors 
> infy.hwSSSE 
[1] 1446.232 
> # The alpha beta and gamma used for filtering 
> infy.hwSalpha 

alpha 
Rat fof oe E 
infy.hwSbeta 

beta 

0.009999868 
> infy.hw$gamma 


© 


V 


gamma 
1 

> # the fitted values 
> head(infy.hwsfitted) 

xhat level trend season 
[1,] 13.91267 11.00710 0.5904618 2.31510417 
[2;] 1856803: 15 44025 6255882 2.83218750 
[3,] 15.17744 17.20828 .6403124 -2.67114583 
[4,] 19.01611 18.31973 0.6450237 0.05135417 
[5,] 15.23710 18.66703 0.6420466 -4.07197917 
[6,] 18.45236 18.53545 0.6343104 -0.71739583 


O OOO O O 


用 HoltWinters 模 型 生成 预测 值 并 画图 : 
> library (forecast) 


> infy.forecast <- forecast(infy.hw, h=20) 
> plot (infy. forecast) 


图 6-14 为 绘图 结果 。 


Forecasts from HoltWinters 


图 6-14 


工作 原理 
步骤 1 读 取 了 数据 。 在 步骤 2 中 ， 这 个 时 间 序 列 对 象 ts 被 创建 出 来 。 更 多 细节 请 参考 6.5 节 的 万 法 。 


步骤 3 用 HoltWinters 了 为 数 对 数据 做 平 清 处 理 。 


在 步骤 4 中 ， 和 后 成 的 HoltWinters 对 象 被 绘制 出 来 。 这 里 展示 了 原始 的 时 间 序 列 和 平滑 后 的 值 。 


步骤 5 展示 了 可 从 HoltWinters 模 型 对 象 中 抽取 信息 的 函数 。 


步骤 6 使 用 predict.HoltWinters 了 数 来 预测 未 来 的 值 。 这 两 个 色 带 分 别 代 表 了 859% 和 959% 的 置信 区 间 。 


6.9 ”创建 目 动 的 ARIMA 模 型 


forecast iH auto.arimakay, BHC PSSA Wa EHARIMARZ!, 
准备 就 绪 


如 果 你 还 没有 下 载 本 草 的 数据 文件 ， 现 在 去 下 载 并 确保 将 这 些 文件 放置 于 你 的 R 工 作 目 录 中 。 安 装 并 加 载 forecast 包 ，。 


为 了 创建 一 个 自动 的 ARIMA 模 型 ， 请 遵循 如 下 步骤 : 

1) 读 取 数据 。 这 个 文件 包含 了 从 雅虎 金融 上 获取 的 Infosys 公 司 从 1999 年 3 月 至 2015 年 1 月 的 月 度 股价 数据 : 
> infy <- read.csv("infy-monthly.csv") 

2) OEEZ : 


> infy.ts w= ts(infySAdj.Close, start = c(1999,3), 
frequency = 12) 


3) 运行 ARIMA 模 型 : 
> infy.arima <- auto.arima (infy.ts) 
4) 用 ARIMA 模 型 生成 预测 值 : 
> infy.forecast <- forecast(infy.arima, h=10) 


5) 对 结果 绘图 : 


> plot (infy.forecast) 


绘制 出 的 结果 如 图 6-15 所 示 。 


Forecasts from ARIMA(2,1,1)(1,0,1)[12] 


图 6-15 


工作 原理 
步骤 1 读 取 了 数据 。 
在 步骤 2 中 ， 时 间 序 列 对 象 ts 被 创建 出 来 。 更 多 细节 请 参考 6.5 节 的 方法 。 
这 个 函数 通过 有 序 搜索 AIC、AICc 或 BIC 的 值 来 生成 最 佳 的 
负数 会 使 用 AlCc。 


在 步骤 3 中 ，forecast 包 中 的 auto.arima 函 数 被 用 来 建立 模型 。 
当 我 们 没有 为 其 提供 这 个 值 时 ， 


ARIMA 模 型 。 我 们 通过 ic 参 数 来 控制 评判 标准 (例如 ，ic="aicc") 。 


置信 区 | 间 。 你 可 以 通过 col 参 数 来 控制 数据 线 的 颜色 ， 通 过 fcol 参 数 来 


在 步骤 4 中 ， 生 成 了 指定 时 间 区 域 (h 参 数 ) 的 预测 值 
步骤 5 对 结果 画图 。 两 条 色 市 分 别 显示 了 859%6 和 95% 的 置信 


控制 预测 绪 的 颜色 。 
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第 / 草 ”这 都 是 你 的 关系 


当 想 到 “社交 了 网络” 这 个 词 的 时 候 ， 我 们 的 脑海 中 会 立刻 浮现 出 Twitter、Facebook、Google+、Linkedln 以 及 Meetup 这 
些 网 站 。 然 而 ， 数 据 分 析 师 们 已 经 将 社交 了 网络 分 析 的 概念 应 用 到 了 更 加 广阔 的 领域 。 诸 如 合作 者 网 络 、 人 际 网 络 、 疾 病 的 扩散 、 
以 及 互 锁 合 作 的 董事 会 天 系 。 这 里 仪 仪 列 举 出 其 中 的 几 种 。 在 本 章 中 ， 我 们 会 涵盖 如 何 理解 社交 网 络 数据 的 方法 。R 


候鸟 迁徙 ， 
提供 了 多 个 可 处 理 社交 网 络 数据 的 包 ， 我 们 在 此 将 介绍 其 中 最 车 名 的 一 个 包 ，igraph。 


BE ”这 都 是 你 的 天 系 一 一 社交 网 络 分 析 


当 想 到 “社交 网 络 ” 这 个 词 的 时 候 ， 我 们 的 脑海 中 会 立刻 浮现 出 Twitter、Facebook、Google+、Linkedln 以 及 Meetup 这 
社交 网 络 分 析 的 概念 应 用 到 了 更 加 广阔 的 领域 。 诸 如 合作 者 网 络 、 人 际 网 络 、 疾 病 的 扩散 、 
rt RE 


些 网 站 。 然 而 ， 数 据 分 析 师 们 已 经 将 
以 及 互 锁 合作 的 董事 会 关系。 这 里 仪 仪 列 举 出 其 中 的 几 种 。 在 本 章 中 ， 我 们 会 沽 兰 如 何 理解 社交 网 络 数据 的 方法 。R 
中 最 著名 的 一 个 包 ，igraph。 


候鸟 迁徙 ， 
提供 了 多 个 可 处 理 社交 网 络 数据 的 包 ， 我 们 在 此 将 介绍 其 


7.2 ”通过 公共 API 下 载 社交 网 络 数据 
我 们 可 以 通过 社交 网 站 所 提供 的 一 些 API (公共 应 用 程序 编程 接口 ) 来 下 载 这 些 网 站 上 的 数据 。 在 本 方法 中 ， 我 们 讨论 了 从 
利用 公共 APIl 从 Meetup.com 网 站 上 下 载 数 据 的 流程 。 你 可 以 修改 这 个 基本 的 下 载 流程 以 适应 其 他 网 站 。 在 本 方法 中 ， 我 们 得 到 


的 是 JSON 格 式 的 数据 ， 然 后 我 们 将 其 导入 到 R 的 数据 框 中 。 
ERS La 
在 本 方法 中 ， 你 会 从 Meetup.com 下 载 数据 。 为 了 访问 这 些 数据 ， 你 需要 注册 成 为 它 的 会 员 
“ 如 果 你 还 没有 http://www.meetup.com 的 账号 ， 那 么 现在 去 注册 一 个 ， 并 成 为 其 中 一 些小 组 的 成 员 。 
你 需要 使 用 你 自己 的 API 密 钥 通 过 脚本 来 下 载 数据 。 可 以 从 http://www.meetup.com/meetup_api/ 单 击 API 密 钥 的 连接 来 获取 


WA OM BA, RAR EA 
无 需 任何 额外 的 信息 ， 你 丈 可 以 重复 这 里 的 流程 。 然 而 如 果 你 想 知 道 更 多 的 细节 ， 可 以 


在 http://www.meetup.com/meetup ap 阅读 关于 密 钥 的 襄 明 。 


下 载 groupsjson 文 件 并 将 其 保 仔 在 你 的 R 工 作 目录 中 。 


在 本 方法 中 ， 我 们 会 看 到 如 何 从 控制 全 获取 数据 ， 以 及 如 何 使 用 一 个 R 脚 本 : 


1) 下 载 符合 某 个 标准 的 Meetup 小 组 信息 。http://www.meetup.com 人 允许 你 在 定义 了 自己 的 标准 之 后 从 他 们 的 控制 谷 下 
载 数据 。 另 外 ， 你 也 可 以 通过 一 个 合适 的 URL 来 直接 获取 数据 。 在 下 载 大 规模 数据 时 ， 前 一 种 方法 存在 一 些 限制 。 


2) 在 本 方法 中 ， 我 们 首先 向 你 展示 如 何 从 控制 台 获 取 数 据 。 然 后 我 们 会 展示 如 果 使 用 一 个 R 脚 本 来 通过 URLs 获 取 大 规模 的 
数据 。 我 们 首先 得 到 小 组 的 一 个 列表 。 使 用 你 的 浏览 器 访问 http://www.meetup.com/meetup_api/。 单 击 控制 人 台 ， 然 后 单 击 
右边 的 Groups (GET/2/groups) 下 面 的 第 一 个 链接 。 输 入 你 所 感 兴趣 的 主题 以 及 你 的 1SO 国 家 代码 (两 个 字符 ， 可 以 参 
考 http://en.wikipedia.org/wiki/ISO_3166-1 来 获取 国家 代码 ) 和 城市 或 者 邮编 。 你 可 以 指定 “半径 ”来 限制 所 返回 的 组 别 的 
个 数 。 我 们 这 里 使 用 的 主题 是 hiking， 国 家 是 US， 邮 编 是 08816， 半 径 是 25。 单 击 Show Response 来 查看 结果 。 如 果 你 得 到 一 
个 错误 ， 那 么 试 试看 其 他 的 值 。 如 果 你 使 用 了 一 个 不 同 于 此 的 筛选 标准 ， 你 可 能 会 看 到 很 多 小 组 。 对 于 前 面 的 结果 ， 你 会 注意 到 
每 一 个 小 组 的 很 多 属性 信息 。 你 可 以 使 用 only 来 得 到 其 中 一 些 属 性 。 例 如 ， 为 了 只 得 到 组 ID、 组 名 ， 以 及 成 员 个 数 ， 请 在 only 


这 一 栏 中 输入 id，name，members (注意 在 逗号 后 面 没有 空格 ) 。 


3) 你 也 可 以 使 用 一 个 URL 直 接 获 取信 息 ， 但 这 样 会 需要 使 用 你 的 API 密 铀 。 例 如 ， 下 面 这 个 URL 可 以 获取 位 于 傈 兰 阿 姆 斯 特 
丹 的 所 有 与 hiking 相 关 的 小 组 的 ID、 组 名 、 成 员 人 数 (用 你 自己 的 API 密 钥 蔡 换 这 里 的 < <your api key> > ， 不 需要 保留 这 里 的 


Kins) 。 


http://api.meetup.com/2/groups?topic=hiking&country=NLécity=Ams 
terdam&only=id,name,members&key=<<your api key>> 


你 会 友 现 当 直 接 使 用 URL 连 接 的 时 候 ， 控 制 台 中 的 结果 看 起 来 会 不 大 一 样 ， 但 这 只 是 格式 上 问题 。 控 制 台 会 输出 格式 漂亮 的 
JSON 数 据 ， 然 而 当 我 们 使 用 一 个 URL 时 ， 我 们 看 到 的 是 一 个 无 格式 的 JSON 数 据 。 


4) 我 们 现在 要 将 下 载 的 数据 保存 起 来 ; 具体 方法 取决 于 你 使 用 了 第 2 步 中 的 控制 台 方 法 还 是 第 3 步 中 的 URL 方 法 。 如 果 你 使 
用 的 是 控制 台 方 法， 你 应 该 选择 从 results 前 面 的 {开始 ， 到 最 后 一 个 } 结 束 的 字符 块 。 将 这 些 文 字 复制 到 一 个 文本 编辑 器 中 并 保存 
为 groups.jjson。 另 一 方面 ， 如 果 你 使 用 了 第 3 步 中 的 URL 方 法 ， 那 么 单 击 右键 并 选择 “另存 为 ”来 将 显示 出 来 的 结果 保存 到 名 为 
groups.json 的 文件 中 。 将 这 个 文件 保存 于 你 的 R 工 作 目 录 中 。 你 也 可 以 使 用 前 面 下 载 的 groups.json 文 件 。 


5) 我 们 现在 从 保存 好 的 JSON 文 件 中 读 取 数据 到 R 的 一 个 数据 框 中 。 更 多 细 市 请 参考 1.4 市 : 
library (jsonlite) 


g <- fromJSON ("groups.json") 


groups <- gsSresults 


VV VV 


head (groups) 


6) 对 于 每 一 个 小 组 ， 我 们 现在 将 通过 Meetup.com API 来 下 载 小 组 成 员 的 信息 并 保存 到 一 个 名 为 users 的 数据 框 中 。 你 所 下 
载 的 本 章 代码 文件 中 有 一 个 名 为 rdacb.getusers.R 的 文件 。 将 这 个 文件 载 入 到 你 的 R 环 境 中 并 运行 下 面 的 代码 。 


对 于 我 们 的 小 组 列表 中 的 每 一 个 小 组 ， 这 段 代码 会 使 用 Meetup.com 的 AP| 来 获取 小 组 成 员 信 息 。 它 会 生成 一 个 包含 了 配对 
好 的 group_id、user_id 的 数据 框 。 用 你 目 己 的 API 密 钥 替 换 这 里 的 <<apikey> > 。 确 保 用 双 引 号 将 密 钥 括 起 来 ， 同 时 确保 不 要 
在 代码 中 出 现任 何 尖 括号 。 因 为 数据 量 以 及 网 络 请 求 的 关系 ， 这 条 命令 需要 运行 一 段 时 间 。 如 果 你 得 到 一 个 错误 消息 有 反馈， 那么 
请 查看 本 证 的 “工作 原理 ”部 分 : 


> source ("rdacb.getusers.R") 
> # in command below, substitute your api key for 
> # <<apikey>> and enclose it in double-quotes 


> members <- rdacb.getusers(groups, <<apikey>>) 


这 会 创建 一 个 包 合 (group_id, userid) 的 数据 框 。 

7) 这 个 members 数 据 框 现在 包谷 了 社交 网 络 数据 ， 我 们 后 续 的 所 有 分 析 中 都 将 使 用 它 。 然 而 ， 因 为 它 非 常 的 大 ， 后 续 方 法 
中 很 多 步骤 都 会 化 费 很 长 的 时 间 。 因 此 ， 为 了 简便 ， 我 们 只 保留 了 属于 超过 16 个 组 的 那 学 会 员 的 信息 ， 以 此 可 以 减少 这 个 社交 
网 络 的 大 小 。 在 这 一 步 中 ， 我 们 使 用 了 数据 表 。 天 于 它 的 更 多 细节 内 容 请 参考 第 9 章 。 如 果 你 想 使 用 完整 的 社交 网 络 数据 ， 那 么 


执行 users<-members 这 条 命令 并 跳 过 下 面 两 条 命令 ， 直 接 到 步骤 8 中 : 


> library (data.table) 
> users <- setDT(members) [,.SD[.N > 16], by = user id] 


8) 再 进一步 处 理 忆 前， 保存 这 个 数据 集 : 


> save (users,file="meetup users.Rdata") 


工作 原理 
步骤 2 和 步骤 3 从 Meetup.com 上 通过 控制 台 获 取 了 数据 。 


默认 情况 下 ， 对 于 每 一 次 调用 ，Meetup API 返 回 20 条 结果 (JSON 文 档 ) 。 然 而 ， 通 过 在 控制 台 或 者 URL 中 添加 
page=n (这 里 n 是 一 个 数字 ) ， 我 们 可 以 得 到 更 多 的 文档 (上 限 是 200) 。 这 个 API 的 返回 值 中 包含 了 元 数据 信息 ， 其 中 也 包 合 
了 返回 的 文档 个 数 (在 count 元 素 中 ) 、 辟 的 可 获取 文档 个 数 (total count 元 素 ) 、 所 使 用 的 URL， 以 及 下 一 组 结果 要 用 到 的 
URL (next 元 素 ) 。 


步骤 4 将 浏览 器 中 的 结果 保存 到 你 的 R 工 作 目 录 中 的 groups.json 文 件 中 。 
步骤 5 使 用 jsonlite 包 中 的 fromJSON 函 数 将 这 个 JSON 数 据 文件 载 入 到 R 数 据 框 中 。 更 多 细节 请 参考 1.4 节 。 
返回 的 对 象 g 中 包含 了 在 元 素 results 中 的 结果 。 我 们 将 g$results (一 个 数据 框 ) 赋值 给 groups 变 量 。 


步骤 6 使 用 了 一 个 便捷 的 rdacb.getusers 国 数 对 每 一 个 组 依次 获取 它们 的 组 员 。 这 个 函数 利用 group id 构建 了 一 个 合法 的 
API URL。 因 为 每 一 次 调用 只 返回 一 个 固定 数量 的 用 户 ， 我 们 在 此 使 用 了 一 个 while 循 环 来 得 到 所有 的 用 户 。 返 回 结果 中 的 next 


元 素 会 告诉 我 们 一 个 组 是 否 还 有 更 多 成 员 。 


有 些 组 可 能 没有 成 员 ， 因 此 我 们 用 temp$results 来 检查 其 是 否 返 回 一 个 数据 框 。API 会 返回 Meetup.com 上 的 小 组 和 用 户 
ID. 


如 果 Meetup.com 网 站 经 过 几 次 API 调 用 之 后 遇 到 了 过 载 问题 ， 你 会 得 到 一 个 错误 消息 : “Error in 
function (type，msg，asError=TRUE) : Empty reply from server”。 重 新 尝试 这 一 步 。 根 据 小 组 数量 以 及 每 个 小 组 中 的 成 


员 数 量 的 多 少 ， 这 一 步 可 能 会 花费 很 长 时 间 。 


此 时 ,我 们 已 经 有 了 一 个 非常 大 的 社交 网 络 数据 。 本 章 后 续 的 万 法 会 使 用 我 们 在 本 方法 中 创建 的 社交 网 络 。 当 处 理 这 整个 网 
络 的 数据 时 ， 后 续 方 法 中 的 某 些 步骤 可 能 会 花费 相当 长 的 时 间 。 对 于 我 们 这 里 的 教程 而 言 ， 使 用 一 个 小 型 的 网 络 以 及 足够 了 。 
此 ， 在 步骤 7 中 ， 我 们 使 用 了 data.table 来 获取 属于 超过 16 个 小 组 的 成 员 信息 。 


步骤 8 将 这 些 成 员 数 据 保存 在 一 个 文件 中 以 备 后 续 使 用 。 我 们 现在 有 了 双 模 式 的 网 络 ， 其 中 第 一 个 模式 是 一 个 小 组 的 集合 ， 
第 二 个 模式 是 一 张 成 员 的 列表 。 我 们 可 以 从 这 里 创建 一 个 基于 公共 小 组 天 系 的 成 员 网 络 ， 或 者 一 个 基于 公共 成 员 的 小 组 网 络 。 在 
本 章 的 剩余 部 分 ， 我 们 使 用 前 一 种 做 法 。 


我 们 创建 了 一 个 数据 框 ， 其 中 每 一 行 代表 一 个 个 体 在 一 个 小 组 中 的 成 员 天 系 。 从 这 些 信息 出 友 ， 我 们 可 以 一 个 创建 社交 网 络 
的 表达 形式 。 


7.3 ”创建 邻接 炬 阵 和 过 边 列表 


我 们 可 以 用 不 同 的 格式 来 表示 社交 网 络 数据 。 我 们 在 此 涵盖 了 两 种 常用 表示 方法 : 稀 中 邻接 答 阵 和 连 边 列表 。 


从 Meetup.com 社 交 网 站 上 获取 数据 (参考 7.2 忆 的 万 法 ) ， 本 万 法 展示 了 如 何 将 包 合 成 员 信息 的 数据 框 转换 成 一 个 稀 玖 令 
接 和 矩阵 并 接着 转换 成 一 个 连 边 列 表 。 


在 这 个 应 用 中 ， 结 点 代表 了 Meetup.com 的 用 户 ， 如 果 两 个 结 点 所 代表 的 用 户 是 同一 个 小 组 的 成 员 ， 则 有 一 条 边 连接 这 两 
个 结 点 ， 两 个 人 乙 间 共同 小 组 的 数量 代表 了 它们 之 间 连 接 的 权重 。 
准备 束 绪 

如 果 你 还 没有 安 六 Matrix 这 个 包 ， 那 么 现在 用 下 列 代 码 安装 它 : 


> install.packages ("Matrix") 


如 果 你 已 经 完成 了 7.2 节 的 方法 并 得 到 了 meetup users.Rdata 文 件 ， 你 现在 就 可 以 使 用 它 。 否 则 ， 你 可 以 下 载 相应 的 数据 文 
件 并 将 它 保存 在 你 的 R 工 作 目 录 中 。 


要 创建 邻接 息 阵 和 连 边 询 表 ， 请 遵 衢 如 下 步骤 : 


1) 从 meetup_users.Rdata 文 件 中 载 入 Meetup.com 网 站 的 用 户 信 息 。 这 会 创建 一 个 名 为 的 数据 框 ， 其 中 含有 变量 
(user id, group id) : 


> load("meetup users.Rdata") 


2) Ble— Maire, RATRES MME, WIRES TAP. UTS MPSA, iJATRUER 
æ (group_id, user_id) 的 位 置 。 如 果 你 有 非常 多 用 尸 ， 那 么 这 一 步 会 花费 相当 长 的 时 | 间 。 同 样 的 ,创建 一 个 稀疏 和 矩阵 也 需 
要 消耗 很 多 内 和 存 。 如 果 你 的 R 会 话 卡 住 了 ， 那 么 你 可 能 需要 找 一 台 拥 有 更 大 内 存 的 计算 机 ， 或 者 减少 用 户 数量 之 后 再 试 一 次 : 

> library (Matrix) 


> grp.membership = sparseMatrix(users$group id, usersSuser id, x = 
TRUE) 


3) (FBX abit ABBR Bll “OBES, ABRE TIAR RTA, AERP ATCRA— MES, BRR STAT 


用 户 都 属于 的 小 组 数量 : 


> adjacency = t(grp.membership) %*% grp.membership 


4) Feito ay LASER) Za be a ERS SR BEM) AIBC CAPs, XE a eA, WOR SA 
同 小 组 之 间 公 共 成 员 的 数量 。 不 过 在 这 个 例子 中 ， 我 们 将 只 考虑 用 户 网 络 


5) 通过 邻接 和 矩阵 创建 一 个 连 边 列 表 : 


> users.edgelist <- as.data.frame (summary (adjacency) ) 
> names (users.edgelist) 


[1] "j" a War 


6) FAATSQAPCIDWAKAR SIENA. Bitten, WRAP 2S 20RA NHE, BAW ASS 
记录 这 个 信息 。 我 们 只 需要 保留 其 中 的 一 个 。 同 时 ， 我 们 的 邻接 矩阵 具有 非 零 的 对 角 续 元 素 ， 因 此 连 边 询 表 中 有 与 之 相对 应 的 边 
仓储。 我 们 可 以 通过 只 保留 跟 邻 接 和 矩阵 的 上 三 角 部 分 或 者 下 三 角 部 分 相对 应 的 边 来 消除 它们 : 


# Extract upper triangle of the edgelist 
> users.edgelist.upper <- users.edgelist [users.edgelist$i < users. 
edgelistsj,] 


7) USS, PRIX TEMG: 


> save (users.edgelist.upper, file = “users edgelist upper.Rdata") 


工作 原理 


步骤 1 从 保 分 好 的 meetup_users.Rdata 数 据 文 件 中 载 入 了 用 户 的 小 组 成 员 关 系数 据 。 这 会 创建 一 个 用 户 数据 框 ， 其 中 的 结 
构 为 (userid, group id) 。 基 于 它 ， 我 们 希望 创建 一 个 网 络 ， 其 节点 为 用 户 ， 而 每 一 对 具有 人 至 少 一 个 公共 小 组 的 用 户 之 间 有 
一 条 边 。 我 们 希望 将 公共 小 组 的 数目 作为 边 的 权重 。 


步骤 2 将 小 组 成 员 关 系数 据 框 中 的 信息 转换 成 了 一 个 稀疏 矩阵 ， 这 个 矩阵 的 行 是 小 组 ， 列 是 用 尸 。 为 了 更 清楚 地 说 明 这 一 
点 ， 下 面 给 出 了 一 张 表 格 ( 见 图 7-1) 。 作 为 一 个 例子 ， 它 展示 了 具有 四 个 小 组 和 九 个 成 员 的 算 孟 。 第 一 个 小 组 包含 了 成 员 1、 
和 7， 第 二 个 小 组 包含 了 成 员 1、3、4 和 6， 以 此 类 推 。 我 们 这 里 展示 了 一 个 完整 的 和 矩 孟 ， 但 是 步骤 2 实际 创建 了 一 个 空间 利用 效 
KS A ARMAR o 


FAT IX MIS SIZES, AL MISC STRUTS EEA SS “ORFS” BLE EGFR" AN 
达 万 式 。 我 们 希望 创建 一 个 Meetup.com 用 尸 的 社交 网 络 。 邻 接 和 矩阵 是 一 个 方 阵 ， 其 行 和 列 都 是 用 尸 ， 并 且 用 户 所 共同 参与 的 
小 组 数量 束 是 矩阵 的 元 素 。 对 于 图 7-1， 其 邻接 矩阵 如 图 7-2 所 示 。 


步 台 3 通 过 前 面 的 稀 琉 小 组 成 员 关 系 算 阵 创建 了 一 个 稀 玉 邻接 算 阵 。 从 图 7-2 中 ， 我 们 看 到 用 户 1 和 用 户 4 有 三 个 共同 的 小 组 
(小 组 1、2 和 3) ， 因 此 这 个 矩阵 中 的 (1, 4) 和 (4, 1) 位 置 的 元 素 是 3。 对 和 角 线 上 的 元 素 表 示 了 相应 用 户 上 自身 所 属 的 小 组 个 


数 。 用 户 1 属 于 3 个 小 组 ， 因 此 (1，1) 位 置 的 元 素 是 3。 我 们 只 需要 这 个 和 矩阵 的 上 三 角 部 分 或 者 下 三 角 部 分 ， 于 是 我 们 会 在 后 面 
的 步骤 中 处 理 这 一 点 。 


步骤 4 基于 这 个 稀 琉 邻接 和 矩 阵 创建 了 一 个 连 边 列表 。 连 边 列表 的 结构 是 : ”( 用 户 编号 1， 用 户 编号 2， 两 者 所 共同 属于 的 小 组 
个 数 ) 。 对 于 图 7-2 中 的 例子 ， 其 连 边 列表 如 图 7-3 所 示 (图 中 只 显示 了 47 个 边 中 的 10 个 ) 。 再 说 一 遍 ， 我 们 只 需要 答 阵 的 上 三 
角 部 分 或 者 下 三 角 部 分 ， 我 们 会 在 后 面 的 步骤 中 处 理 它 。 


我 们 得 到 了 一 个 对 称 的 网 络 。 用 尸 A 和 用 户 B 有 mn 个 共同 小 组 与 用 户 B 和 用 户 A 有 mn 个 共同 小 组 是 完全 一 样 的 。 因 此 我 们 不 需要 
在 邻接 和 矩阵 或 者 连 边 列表 中 同时 表示 出 这 两 者 。 同 样 的 ,我们 也 需要 一 条 边 来 连接 用 户 和 他 们 上 自身 ， 因 此 我 们 不 需要 稀 踊 矩阵 中 
的 对 角 线 上 的 元 素 或 者 连 边 矩阵 中 的 证 j 相 等 的 那些 边 ，。 


步骤 6 删除 了 多 余 的 边 以 及 连接 到 自身 的 边 。 
步骤 7 将 这 个 稀 斑 网 络 保 仓 下 来 以 备 后 续 使 用 。 


我 们 已 经 创建 了 一 个 稀 玻 邻接 矩阵 和 一 个 连 边 矩阵 ， 它 们 代表 了 我 们 所 选择 的 Meetup 小 组 成 员 的 社交 网 络 。 我 们 可 以 将 这 
些 表达 形式 用 于 社区 网 络 分 析 。 
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如 果 你 还 没有 安装 igraph 这 个 包 ， 那 么 现在 用 下 面 这 条 命令 来 安装 它 : 
> install.packages ("igraph") 


同时 下 载 users edgelist upper.Rdata 并 保存 到 你 的 R 工 作 目 录 中 。 另 外 ， 如 果 你 已 经 完整 地 做 完了 7.3 节 的 内 容 ， 那 么 你 
经 在 你 的 R 工 作 目 录 中 创建 好 了 这 个 文件 。 


要 用 igraph 绘 制 出 社交 网 络 数 据 ， 请 遵循 如 下 步骤 : 
1) 载 入 数据 。 下 面 这 条 代码 会 从 已 保存 的 文件 中 恢复 出 一 个 名 为 users.edgelist.upper 的 数据 框 : 


> load("users edgelist upper.Rdata") 


2) 这 个 数据 文件 应 该 包含 1953 行 数据 。 绘 制 出 这 样 一 个 网 络 会 化 费 太 长 的 时 间 一 一 甚 全 更 糟 ， 我 们 会 得 到 一 个 过 于 密集 的 
图 像 以 全 于 无 法 获取 任何 有 意义 的 信息 。 为 了 方便 起 见 ， 我 们 会 通过 饰 选 我 们 的 连 边 询 表 来 创建 一 个 小 得 多 的 网 络 。 我 们 将 只 考 
夸 具 有 超过 16 个 共同 小 组 成 员 天 系 的 用 户 ， 这 会 得 出 一 个 示 学 用 的 小 得 多 的 网 络 : 


> edgelist.filtered <- 
users.edgelist.upper [users.edgelist.uppersSx > 16, ] 


> edgelist.filtered # Your results could differ 


3) 为 这 些 用 户 重 新 编号 。 由 于 饰 选 的 力度 很 大 ， 我 们 这 里 只 剩 下 了 18 个 用 户 ， 但 他 们 仍然 保留 了 他 们 的 原始 编号 。 重 新 为 
他 们 从 1 到 18 进 行 编号 会 让 我 们 后 续 的 操作 变 得 更 加 方便 。 这 一 


34364988 
41804209 
53937250 
62598651 


190318039 
190321739 
205800861 
252063744 
252064197 
252064967 
252071701 
252076384 
254937514 
282621070 
282621870 
282639752 
307874358 
335204492 


2073657 
2073657 
2073657 
4625125 


5286367 
8417076 
5054895 
5054895 
5590181 
6629901 
10973799 
13657677 
Seats TI 
5590181 
6629901 
33434002 
33434002 
33434002 


3823125 
4379102 
5590181 
6629901 


Be 
13657677 
14423171 
33434002 
33434002 
33434002 
33434002 
33434002 
34617262 
46801552 
46801552 
46801552 
56882992 
69087262 


486425803 33434002 147010712 


> nrow (edgelist.filtered) 


[1] 19 


uids <- unique(c(edgelist.filteredSi, 


4) 创建 一 个 graph 对 象 并 绘制 出 这 个 网 络 : 


你 的 输出 可 能 会 在 布局 上 看 起 来 不 大 一 样 (如 图 7-4 所 示 ) ， 但 是 如 果 仔 细 地 查看 这 张 图 ， 你 会 友 现 其 中 的 节点 和 边 都 是 完 


全 一 样 的 。 


> library (igraph) 
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18 
17 
Lf 
Ly 
19 
18 
20 
17 
17 
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步 并 不 是 必需 的 ， 但 会 使 这 个 社交 网 络 看 起 来 更 加 


edgelist.filtered$j) ) 


i <- match(edgelist.filtered$Si, uids) 
j <- match(edgelist.filtered$j, uids) 


nw.new <- data.frame(i, j, x = edgelist.filtered$x) 


> g <- graph.data.frame(nw.new, directed=FALSE) 


ey 
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save(g, 


Y M Y 


18 19 -- 
attr: name (v/c), 


x (e/n) 


# Save the graph for use in later recipes: 


file = "undirected-graph.Rdata") 


plot .igraph (g, vertex.size 


20) 


HE. 
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5) 使 用 另 一 种 布局 来 绘制 这 个 graph 对 象 


> plot.igraph(g, layout=layout.circle, vertex.size = 20) 


前 述 命令 的 输出 结果 如 图 7-5 所 示 。 
6) 用 不 同 的 颜色 绘制 出 顶点 和 边 : 


> plot.igraph(g,edge.curved=TRUE,vertex.color="pink", 
edge.color="black") 


再 襄 一 志 ， 你 所 绘制 出 来 的 图 像 可 能 有 着 不 一 样 的 布局 ， 但 融 网 络 属性 来 说 ， 应 该 与 图 7-6 完 全 一 致 。 
7) 在 绘制 的 时 候 ， 让 节 扣 的 大 小 与 节操 的 度数 成 正比 : 
> V(g)$size=degree(g) * 4 


> plot.igraph (g, edge.curved=TRUE, vertex.color="pink", 
edge.color="black") 


这 个 输出 应 该 类 似 于 图 7-7。 


8) 基于 度数 确定 节点 的 大 小 和 赢 色 : 


> color <- ifelse(degree(g) > 5,"red","blue") 
> size <- degree(g) *4 


> plot.igraph(g,vertex.label=NA,layout= layout.fruchterman. 
reingold,vertex.color=color,vertex.size=size) 


图 7-7 


得 到 如 图 7-8 所 示 的 输出 。 


9) 绘制 时 让 边 的 粗细 正比 于 边 的 权重 : 


> E(g) $x 
La 27 18; A7 18 17 LF LB 18: I7 38 17 NT as 2S TA -20 17 17 J7 


> plot.igraph(g,edge.curved=TRUE, edge.color="black", edge. 
width=E (g) $x/5) 


输出 应 该 与 图 7-9 类 似 。 


工作 原理 
步骤 1 以 连 边 列表 的 形式 载 入 了 所 保存 的 网 络 数 据 。 


当 拥 有 如 此 多 的 数据 时 ， 我 们 会 友 现 一 幅 图 像 并 不 能 有 效 地 辅助 我 们 分 析 ， 因 为 它 太 拥挤 了 。 因 此 ， 出 于 示 泡 的 目的 ,我 们 
重新 定义 了 仅 当 两 个 用 户 具 有 超过 16 个 共同 小 组 的 时 候 ， 他 们 之 间 才 存在 天 系 。 


步骤 2 按照 前 面 的 标准 对 连 边 算 阵 做 了 筛选 ， 只 保留 了 满足 要 求 的 那些 边 。 


尽管 我 们 已 经 对 数据 做 了 筛选 ， 这 些 用 尸 仍然 保留 了 他 们 的 原始 编号 ， 这 是 一 些 很 大 的 数字 。 重 新 为 他 们 从 1 开始 编号 会 是 
Mant. 


步骤 3 重新 为 用 户 编号 。 


步骤 4 使 用 了 igraph 包 中 的 graph.data.frame 上 数 来 创建 一 个 图 形 对 象 。 这 个 函数 将 数据 框 nw.new 中 的 前 两 询 作为 连 边 列 
表 ， 剩 余 的 列 作为 边 的 属性 。 


我 们 通过 指定 directed=FALSE 他 | 建 了 一 个 无 向 图 。 指 定 directed=TRUE (或 者 完全 忽略 这 个 参数 ， 因 为 其 默认 值 是 
TRUE) 会 创建 一 个 有 向 图 。 


这 里 g 是 一 张 有 向 有 名 图 ， 用 UN 来 表示 。 如 果 一 张 图 的 节点 带 有 name 属 性 ， 则 会 被 当 作 有 名 图 处 理 。 第 三 个 字母 意味 着 这 
张 图 是 加 权 的 (W) ， 第 四 个 字母 (B) 代表 其 是 否 是 一 个 两 偶 图 。 第 二 行 +attr: name (v/c) , x (e/n) 给 出 了 这 些 属性 的 
细节 。 属 性 name 代 表 了 顶点 ， 而 属性 x 代 表 了 边 。 


这 一 步 然后 使 用 了 igraph 包 中 的 plot.igraph 来 绘制 出 图 像 。 

我 们 指定 了 参数 vertex.size 来 确保 节点 处 的 圆圈 足够 大 以 便 包含 节点 的 数字 。 
步骤 5 绘制 出 了 完全 一 样 的 图 ， 只 不 过 使 这 些 证 点 溢 在 了 一 个 圆周 上 。 

步骤 6 展示 了 一 些 从 名 字 上 就 可 以 自我 解释 的 选项 。 


ER, PATE SPR (或 顶点) 的 尺寸 。 我 们 用 V (9) 来 访问 图 形 对 象 上 的 每 一 个 顶点 ， 并 使 用 操作 符 $ 来 抽取 其 
属性 ， 例 如 ，V (g) $size。 类 似 地 ， 我 们 可 以 用 E (g) 来 访问 这 些 边 。 


步骤 8 基于 一 个 证 点 的 度 来 为 节点 颜色 和 尺寸 赋值 。 这 里 也 展示 了 如 何 使 用 layout 选 项 。 


我 们 可 以 对 通过 igraph 包 中 的 graph.data.frame 函 数 创 建 的 图 形 对 象 做 出 更 多 的 操作 。 
1. 指 定 绘 图 偏好 设置 


我 们 目前 只 展示 了 绘图 外 观 设 置 的 一 小 部 分 控制 选项 。 你 可 以 有 更 多 的 选项 来 控制 边 和 节点 的 外 观 ， 以 及 其 他 万 面 。 
plot.igraph 的 文档 提 到 了 这 些 选 项 。 当 需要 使 用 它们 时 ， 记 得 在 节点 选项 前 面 加 上 前 缀 (vertex.) ， 边 选项 前 面 加 上 前 绥 


(edge.) 。 


2. 绘 制 有 回 图 


在 主 方法 的 步骤 4 中 ， 我 们 创建 了 一 张 无 册 图。 这 里 我 们 会 创建 一 个 有 加 图 对 象 dg: 


> dg <- graph.data. frame (nw.new) 

> # save for later use 

> save(dg, file = "directed-graph.Rdata") 

> plot.igraph(dg, edge.curved=TRUE, edge.color="black", edge. 
width=E (dg) $x/10, vertex. label .cex=.6) 


绘制 前 述 图 像 ， 我 们 会 得 到 如 图 7-10 所 示 的 输出 。 
3. 创 建 市 权 的 图 形 对 象 


如 果 被 传递 给 graph.data frame 的 连 边 列表 的 第 三 列 的 名 字 是 weight， 那 么 它 会 创建 一 个 带 有 权重 的 图 像 。 这 里 我 们 将 第 
三 列 的 列 名 从 x 改 为 weight， 然 后 重新 画图 : 


> nw.weights <- nw.new 

> names(nw.weights) <- c("i","j","weight") 

> g.weights <- graph.data.frame(nw.weights, directed=FALSE) 
> g.weights 

IGRAPH UNW- 18 19 -- 

+ attr: name (v/c), weight (e/n) 


图 7-10 


当 我 们 检查 这 个 图 形 对 象 的 属性 时 ， 我 们 可 以 看 到 企 其 属性 UNW- 中 看 到 W 处 在 第 三 个 位 置 上 。 


4. 从 图 形 对 象 中 将 网 络 以 邻接 矩阵 的 形式 抽取 出 来 


我 们 之 前 从 稀 下 C 邻 接 答 阵 中 创建 了 一 个 连 边 和 矩阵。 现在 我 们 展示 如 何 从 在 主 方法 第 四 步 的 图 形 对 象 中 得 到 对 应 的 稀 琉 令 5 接 算 
阵 。 下 面 我 们 用 type="upper" 来 得 到 上 三 角 和 矩 阵 。 其 他 人 允许 的 选项 是 lower 和 both。 


> get .adjacency (g, type="upper") 


18 x 18 sparse Matrix of class "dgCMatrix" 


[[ suppressing 18 column names '1', '2', '3' ... J] 
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如 果 我 们 想 要 得 到 权重 ， 可 以 使 用 下 面 的 手段 。 
5. 抽 取出 一 个 市 有 权重 的 邻接 起 阵 


igraph 包 中 的 graph.data.frame 消 数 通 过 所 提供 的 数据 框 的 前 两 列 来 生成 连 边 列表 ， 并 将 剩余 的 列 作 为 边 的 属性 。 上 默认 情 
况 下 ，get.adjacency 国 数 并 不 返回 任何 边 属性 ， 取 而 代 之 的 是 ， 它 返回 一 个 简单 的 关于 连接 情况 的 0-1 稀 芷 矩阵 。 


然而 ， 你 可 以 传递 attr 参 数 来 告诉 这 个 函数 你 需要 将 剩余 属性 中 的 哪 一 个 作为 稀 中 和 矩阵 (对 于 连 边 列表 也 一 样 ) 中 的 元 素 。 
在 我 们 的 情况 中 ， 这 个 属性 是 x， 其 代表 了 两 个 用 户 所 共同 的 小 组 关系 的 个 数 。 在 下 面 的 代码 中 ， 我 们 指定 了 type= "lower" 来 得 
到 下 三 角 和 矩阵 。 其 余 选 项 有 upper 和 both。 


> get.adjacency(g, type = "lower", attr = "x") 


18 x 18 sparse Matrix of class "dgCMatrix" 
[[ suppressing 18 column names '1l', '2', '3' ... ]] 
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6. 从 图 形 对 象 中 抽取 出 连 边 列表 


你 可 以 在 一 个 igraph 对 象 上 使 用 get.data.frame 国 数 来 得 到 连 边 列 表 : 


> y <- get.data.frame (g) 


> y <- get.data.frame(g,"vertices") 


7. 创 建 两 偶 网 图 
假设 我 们 有 一 些小 组 和 一 些 用 尸 ， 每 一 个 用 户 属 于 几 个 小 组 ， 同 时 每 一 个 小 组 拥有 几 个 用 己 。 


我 们 可 以 用 一 张 两 偶 图 来 表示 这 些 信息 。 各 个 小 组 组 成 了 两 偶 图 中 的 一 个 集合 ， 用 户 组 成 了 另 一 个 集合 ， 一 个 集合 中 的 成 员 
与 另 一 个 集合 中 的 成 员 用 边 来 连接 。 你 可 以 使 用 igraph 包 中 的 graph.incidence 函 数 来 创建 这 种 网 络 的 可 视 化 效果 : 


set.seed(2015) 

g1 <- rbinom(10,1, .5) 

g2 <- rbinom(10,1, .5) 

g3 <= rbinom(10,1, .5) 

g4 <- rbinom(10,1,.5) 

membership <- data.frame(gl, g2, g3, g4) 


VV Vv wY V V ¥ 


names (membership) 


[1] e E "g2 " g E. W "g4 IT 


ES = (TUT, Tu mum; “ne, “Hh”, ““aE*, "7", 
nuan.. gi: i aa yi 0") 


> rownames (membership) 


[1] "ul " "112 " "u3 " " u4 " "u5 " "u6 " W417 1" "ug W 
[9] "u9 W "Lon 


# Create the bipartite graph through the 
# graph.incidence function 

bg <- graph.incidence (membership) 

bg 


V V V V 


IGRAPH UN-B 14 17 -- 
+ attr: type (v/l), name (v/c) 


> # The B above tells us that this is a bipartite graph 
> # Explore bg 


> V(bg) $type 


[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
[9] FALSE FALSE TRUE TRUE TRUE TRUE 


> # FALSE represents the users and TRUE represents the groups 
> # See node names 
> V(bg) $name 


和 " 1 " i " "W " n " " 和 " n " u 
[1] "ul u2 u3 u4 u5 u6 u7 us 
[9] "ug" "u10" ng " "az Th raa " "g4 m 


> # create a layout 

> lay <- layout.bipartite (bg) 

> # plot it 

> plot (bg, layout=lay, vertex.size = 20) 

> # save for later use 

> save(bg, file = "bipartite-graph.Rdata") 


我 们 随机 创建 了 一 个 包含 四 个 小 组 和 十 个 用 户 的 网 络 ， 其 图 像 如 图 7-11 所 示 。 
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8. 生 成 两 偶 网 络 的 投影 


我 们 经 常 需 要 从 一 个 两 偶 网 络 中 抽取 一 种 或 两 种 类 型 节点 的 邻接 信息 。 在 前 面 的 例子 中 ， 我 们 也 许 想 知道 两 个 用 己 是 相互 孤 


立 的 还 是 通过 他 们 的 共同 小 组 天 系 连 接 在 一 起 的 ， 并 且 我 们 想 要 创建 仪 针 对 用 户 的 图 像 。 类 似 地 ， 我 们 也 可 通过 两 个 小 组 是 否 具 
有 至 少 一 个 共同 成 员 来 得 出 这 两 个 小 组 是 否 相连 的 信息 。 可 以 使 用 bipartite.projection 函 数 来 完成 这 一 任务 : 


> # Generate the two projections 
> p <- bipartite.projection (bg) 
> P 


Sprojl 
IGRAPH UNW- 10 24 -- 
+ attr: name (v/c), weight (e/n) 


Sproj2 
IGRAPH UNW- 4 5 -- 


+ attr: name (v/c), weight (e/n) 


> plot (pSprojl, vertex.size = 20) 
> plot (p$proj2, vertex.size = 20) 


第 一 个 投影 的 图 像 如 图 7-12 所 示 ， 下 一 个 生成 的 投影 如 图 7-13 所 示 。 


图 7-12 


图 7-13 


75 ”计算 重要 的 网 络 度量 指标 


本 方法 涵盖 了 如 何 计算 社交 网 络 上 一 些 常用 度量 指标 的 方法 。 


ER ZR 


如 果 你 还 没有 安装 igraph 这 个 包 ， 现 在 去 安装 它 。 如 果 你 已 经 完成 了 本 章 前 面部 分 的 几 个 方法 ， 你 的 R 工 作 目 录 中 应 该 有 
directed-graph.Rdata、undirected-graph.Rdata 和 bipartite-graph.Rdata 这 几 个 文件 。 如 果 没 有 ， 下 载 这 些 数据 文件 并 将 它 
们 放置 在 你 的 R 工 作 目 录 中 。 


要 计算 重要 的 用 于 度量 网 络 的 指标 ， 请 遵循 如 下 步骤 : 


1) 载 入 数据 文件 : 


> load("undirected-graph.Rdata") 
> load("directed-graph.Rdata") 
> load("bipartite-graph.Rdata") 


2) degree 中 心性 可 用 下 面 的 方式 来 确定 : 


> degree (dg) 


L AS & S&S &@ F 3 15.17 18 
< 2 Hh 2 ww ae ee See Bk SB Ee Oe Ue 


L# sa 3 & 7 @ 3 20 52 Ge is 248 25.16 17 15 
3 


> degree (dg, "7") 


> degree(dg, 9, mode = "in") 


V 


degree (dg, 9, mode = "out") 


# Proportion of vertices with degree 0, 1, 2, etc. 


V 


> options (digits=3) 
degree .distribution (bg) 


V 


[1] 0.0714 0.2857 0.1429 0.3571 
[5] 0.0714 0.0000 0.0000 0.0714 


3) betweenness 中 心性 可 用 下 面 的 方式 来 确定 : 


> betweenness (dg) 


2 3 € 5 6 F 8 9 TO I1 12 13 14 15 16 17 18 


| O U € S5 & 010 UO 32 


> betweenness (g) 


LS 


0 


1 2 5 -= 5 6 


w 2.9 0 Do Ed 220 LL 


1 14 LS 16 17 18 
a 2:0 OSs O20 Of 0.0 


> betweenness (dg, 5) 


5 
0 


> 


> 


[1 


edge .betweenness (dg) 


edge .betweenness (dg, 10) 


] 8 


4) closeness 中 心性 可 用 下 面 的 方式 来 确定 : 


V 


options (digits=3) 


> closeness (dg, mode="in") 


1 2 S -< 


JO0S27 0.00346 0.00327 0.00327 


7 8 9 10 


-00366 0.00327 0.00368 0.00327 


I3 14 15 16 


.00346 0.00346 0.00690 0.00671 


closeness (dg, mode="out") 


1 2 3 = 


.00617 0.00472 0.00469 0.00469 


7 8 9 10 


0 0 0 0 0 
7 8 9 10 
0.0 27.0 


S 
0..00327 
11 
0.00637 
17 
0.00671 


3 
0.00481 
a Ea 


1 2 
6 
0.00346 
12 
0.00346 
18 
0.00671 
6 
0.00446 
12 


0 


0 


Li 12 


020 B60 0 


6 10 10 


.00446 0.00444 0.00444 0.00346 0.00420 0.00327 
13 14 LS 16 17 18 
.00327 0.00327 0.00327 0.00327 0.00327 0.00327 

> closeness (dg,mode="all") 
1 2 3 4 5 6 
0.01333 0.01316 0.01220 0.01220 0.01429 0.01515 
7 8 9 10 11 i 
0.01493 0.01389 0.01471 0.00346 0.01724 0.01124 
= 14 15 16 17 18 


0.01190 0.00346 0.01493 0.01389 0.01389 0.01389 
> closeness (dg) 


1 2 3 7 3 6 
0.00617 0.00472 0.00469 0.00469 0.00481 0.00446 
7 8 9 10 a. LZ 
0.00446 0.00444 0.00444 0.00346 0.00420 0.00327 
13 14 15 16 17 18 
0.00327 0.00327 0.00327 0.00327 0.00327 0.00327 


工作 原理 


步骤 1 计算 了 多 个 用 于 处 理 图 像 中 的 顶点 的 度 的 度量 指标 。 度 衡量 了 霖 个 顶点 所 连接 的 边 的 个 数 。 度 的 分 布 提供 了 所 有 大 的 
频率 信息 。 对 于 一 个 无 向 图 ， 度 始终 等 于 忌 的 邻 边 条 数 。 然 而 ， 对 于 一 个 有 向 图 ， 度 的 大 小 依赖 于 所 传递 的 模 参 数 。 模 可 以 是 
out、in、all 或 者 total。all 和 total 都 会 返回 所 有 节点 的 总 度数 。 你 应 该 能 够 从 前 面 提供 的 图 中 验证 这 些 数字 。 


中 心性 确定 了 单独 的 节点 如 何 适 配 一 个 网 络 。 高 中 心性 节点 代表 了 其 具有 很 高 的 影响 力 : 可 以 是 正面 或 负面 的 。 有 各 种 类 型 
的 中 心性 度量 指标 ， 我 们 在 此 讨论 了 其 中 比较 重要 的 一 些 指标 。 


步 又 2 计算 了 中 介 度 ， 这 个 指标 量化 表示 了 一 个 证 点 深 入 其 他 两 个 书 点 之 间 的 最 短路 径 的 次 数 。 中 介 度 高 的 节点 位 于 两 个 不 
同 艇 的 中 间 。 要 从 一 个 衣 的 任何 一 个 节操 穿越 到 另 一 个 簇 的 任何 一 个 节点 ， 通 常 需 要 经 过 这 个 特定 的 节操 。 


边 中 介 度 计算 了 通过 一 条 特定 边 的 最 短路 径 的 个 数 。 如 果 一 张 图 包谷 了 weight 属 性 ， 那 么 它 会 被 默认 使 用 。 在 我 们 的 例子 
有 一 个 属性 x。 如 果 你 将 它 重 新 命名 为 weight， 你 会 得 到 不 同 的 结 


a 


SRS ABE, X Mamet SSR hE DRNAREE. Cera AT BRS 
=, DRAR SPASA aSeaRe Rito. EG oKAAB, WR Rasemode, PARRIMBeout. —5K 
无 向 图 中 ，mode 起 不 到 任何 作用 ， 因 此 它 会 被 忽略 。 


QET 紧密 度 街 旦 了 一 个 节点 能 连接 到 其 他 节点 的 程度 ， 中 介 度 衡量 了 一 个 节点 作为 中 介 的 程度 。 


我 们 在 此 展示 了 一 些 额外 的 可 用 来 处 理 图 形 对 象 的 选项 。 


1. 创 建 边 序列 


你 可 以 在 7.4 古 中 的 有 同 图 上 看 到 这 些 边 ， 也 就 是 连接 。 
你 可 以 用 E (1) .…E (19) 来 定位 这 些 边 : 


> E(dg) 
Edge sequence: 


3 

-> 12 
-> 6 

-> 7 

-> 9 

-> 9 

-> 13 
-> 11 
-> 11 
-> 11 
[11] -> 11 
[12] -> 11 
[13] 10 -> 14 
[14] 6 -> 15 
[15] 7 -> 15 
[16] 11 -> 15 
[17] 11 -> 16 
[18] 11 -> 17 
[19] 11 -> 18 


[1] 
[2] 
[3] 
[4] 
[5] 
[6] 
[7] 
[8] 
[9] 
[10] 


Y oy OU 人 OD FP FP FP 


2 REARS 


neighbors 函 数 会 列 出 一 个 给 定 节点 的 邻居 (HERES) : 


> neighbors(g, 1) 

[1] 2 6 12 

> neighbors (bg, "ul") 

[ti 12 13 14 

> # for a bipartite graph, refer to nodes by node name and 
> # get results also as node names 

> V(bg) $name [neighbors (bg, "g1") ] 

BL Soe See | Re 


neighborhoods] 7 KF— MSE TD Rat RASS. LARARO SEIRA, ADCZIE 
身 的 距离 时 0: 


> #immediate neighbors of node 1 
> neighborhood(dg, 1, 1) 

fea 

mj 2 2 B he 


> neighborhood (dg, 2, 1) 
L11] 
LI E A e L Z LLIS 


3 Ra 


我 们 可 以 为 一 个 已 有 的 图 形 对 象 添 加 证 点 : 


#Add a new vertex 
g.new <- g + vertex(19) 
# Add 2 new vertices 


g.new <- g + vertices(19, 20) 


VV VV 


URETHRA RASA AZO RIN SAA, FATALE: 
> g.new <- g.new + edge(15, 20) 
5. 删 除 图 像 中 的 孤立 点 
孤立 点 没有 连接 或 边 ， 因 此 它们 的 度 为 0。 我 们 可 以 用 下 面 的 命令 挑选 出 度 为 0 的 顶点 并 用 delete.vertices 消 数 删 除 它 们 : 
> g.new <- delete.vertices(g.new, V(g.new) [ degree(g.new)==0 |]) 


我 们 也 可 以 使 用 delete.vertices 来 删除 特定 的 顶点 。 这 个 函数 创建 了 一 幅 新 的 图 像 。 如 果 此 图 中 没有 顶点 ， 则 你 会 看 到 一 条 
错误 消息 : Invalid vertex names。 绘 制 出 这 幅 图 像 来 检查 孤立 顶点 是 否 被 成 功 删 除 : 


> g.new <- delete.vertices(g.new,12) 


删除 操作 会 给 项 点 1D 重新 赋值 ， 有 些 情 况 下 甚至 会 导 人 有些 边 也 被 删除 了 。 因 此 如 果 你 使 用 了 顶点 的 1D 而 不 是 顶点 的 名 
字 ， 那 么 请 注意 这 些 |D 可 能 会 改变 。 


6. 创 建 子 图 


你 可 以 用 下 列 代码 选择 你 所 感 兴趣 的 项 点 来 创建 新 的 图 像 : 


> uD <= induced -suborapnig, €S; 10; I3; 14; 17; L; J) 


你 也 可 以 用 下 列 代码 选择 你 所 感 兴趣 的 边 来 创建 新 的 图 像 : 


> E(dg) 


Edge sequence: 


[1] 
[2] 
[3] 
[4] 
pa 
[6] 
[7] 
[8] 
[9] 
[10] 
[11] 
[12] 
[13] 10 -> 14 
[14] 6 -> 15 
[15] 7 -> 15 
[16] 11 -> 15 
[17] 11 -> 16 
[18] 11 -> 17 
[19] 11 -> 18 


Oo oH nw wu FP WD FE FEF PF 
| 
V 
H 
UJ 


> elds = c(1:2, 9:15) 
> dg.sub <- subgraph.edges(dg, eids) 


Boe ”展现 你 最 好 的 一 面 一 一 制作 文档 和 呈现 分 析 报 告 


8.1 5/5 


除了 帮助 我 们 分 析 数 据 ，R 也 有 一 些 库 可 以 帮 你 制作 专业 的 幻灯 片 。 可 以 完成 下 面 这 些 任务 : 
创建 一 个 专业 的 网 页 来 陈列 你 的 分 析 ， 并 使 他 人 可 以 积极 地 用 报告 背后 的 数据 做 实验 。 


` 为 你 的 分 析 创 建 PDF 报 告 ;， 你 的 报告 可 以 谱 入 能 被 系统 执行 的 R 命 令 并 添加 动态 数据 和 图 表 ， 这 样 当 数 据 变动 时 ， 你 可 以 
简单 地 单 击 一 个 按钮 来 重新 生成 报告 。 


- 为 你 的 分 析 创 建 PDF 幻 灯 片 。 


本 草 为 你 提供 完成 所 有 这 些 技能 的 万 法 。 


第 8 章 ”展现 你 最 好 的 一 面 一 一 制作 文档 和 呈现 分 析 报 告 


除了 帮助 我 们 分 析 数 据 ，R 也 有 一 些 库 可 以 帮 你 制作 专业 的 幻灯 片 。 可 以 完成 下 面 这 些 任务 : 
+ 创建 一 个 专业 的 网 页 来 陈列 你 的 分 析 ， 并 使 他 人 可 以 积极 地 用 报告 背后 的 数据 做 实验 。 
为 你 的 分 析 创 建 PDF 报 告 ， 你 的 报告 可 以 谈 入 能 被 系统 执行 的 R 命 令 并 添加 动态 数据 和 图 表 ， 这 样 当 数据 变动 时 ， 你 可 以 
简单 地 单 击 一 个 按钮 来 重新 生成 报告 。 
` 为 你 的 分 析 创 建 PDF 幻灯 片 。 


本 章 为 你 提供 完成 所 有 这 些 技能 的 方法 。 


8.2 FAR Markdown 和 knitR 创 建 数据 分 析 报 告 


R Markdown 提 供 了 一 种 简单 的 语法 用 以 生成 分 析 报 告 。 在 此 基础 上 ，knitr 包 可 以 生成 HTML、PDF、Microsoft Word 格 
式 的 报告 ， 以 及 几 种 幻灯 片 格式 的 报告 。R Markdown 文 档 包 括 普 通 文字 、 髋 入 的 R 代 人 码 框 ， 以 及 行内 代码 。knitr 包 会 解析 
markdown 文 档 并 在 普通 文字 中 的 指定 位 置 插入 R 代 码 的 执行 结果 来 生成 格式 展 好 的 报告 。 


R Markdown 扩 展 了 普通 的 markdown 格 式 来 使 我 们 能 众 入 R 代 码 。 
我 们 可 以 用 RStudio 或 者 直接 在 R 中 用 markdown 包 来 创建 R Markdown 文 档 。 在 本 方法 中 ， 我 们 描述 了 如 何 用 RStudio 来 
完成 这 一 过 程 。 


iE BS La 
如 果 你 还 没有 下 载 本 章 相 关 的 数据 文件 ， 现 在 去 下 载 并 将 auto-mpg.csv 和 knitr.Rmd 这 两 个 文件 保存 到 已 知 位 置 (并 不 需 
要 是 你 的 R 工 作 目 录 ) 。 

安装 最 新 版 本 的 knitr 和 rmarkdown 包 : 


> install.packages ("knitr") 
> install.packages ("rmarkdown" ) 


要 使 用 rmarkdown 和 knitr 包 来 生成 报告 ， 请 遵循 如 下 步骤 : 


1) 打开 RStudio。 


2) 按 如 下 步骤 新 建 一 个 R Markdown 文 档 : 


a) 依次 选择 菜单 选项 中 的 File 一 New File 一 R Markdown. 
b) 输入 标题 "Introduction"， 将 其 余部 分 保持 默认 值 ， 然 后 单 击 OK 按钮 。 
这 会 创建 一 个 R Markdown 文 档 模 板 ， 我 们 可 以 编辑 它 来 满足 我 们 自己 的 需求 。 这 个 文档 模板 类 似 图 8-1 所 示 。 


1¥ === 

2 title: "Introduction" 

3 author: "Shanthi Viswanathan" 

4 date: "March 21, 2015" 

5 output: html_document 

Dr --- 

f 

8 This is an R Markdown document. Markdown is a simple formatting 
syntax for authoring HTML, PDF, and MS Word documents. For more 
details on using R Markdown see <http://rmarkdown.rstudio. com>. 


16 When you click the **Knit** button a document will be generated that 
includes both content as well as the output of any embedded R code 
chunks within the document. You can embed an R code chunk like this: 


12- tr} 


13 summary(cars) 


16 You can also embed plots, for example: 


18- ```{r, echo=FALSE} 
19 plot(cars) 


22 Note that the ‘echo = FALSE’ parameter was added to the code chunk 
to prevent printing of the R code that generated the plot. 


3) 快速 查看 这 个 文档 。 你 无 须 理解 其 中 的 每 一 部 分 的 细 三 。 在 这 一 步 中 ， 我 们 只 是 希望 有 一 个 忌 体 的 印象 。 


4) 基于 这 个 markdown 文 件 创 建 一 个 HTML 文 档 。 根 据 编辑 区 的 宽度 ， 你 可 能 只 会 看 到 knitr 图 标 (一 个 赣 色 的 毛线 球 ， 上 
面 插 着 一 根 织 针 ) 和 一 个 向 下 的 箭头 ,或 者 你 会 看 到 knitr 图 标 和 它 芳 边 的 文字 Knit HTML。 如 果 你 只 看 到 了 图 标 ， 那 么 单 击 铅 
下 箭头 并 选择 Knit HTML。 如 果 你 看 到 了 图 标 边 上 的 文字 ， 则 只 需要 直接 单 击 Knit HTML 来 生成 HTML 文 档 。Rstudio 会 在 一 个 
单独 的 窗口 中 或 者 在 右上 方 的 面板 中 泻 染 这 份 报告 。 你 所 用 来 生成 HTML 的 菜单 中 舍 有 泻 染 区 域 的 选项 一 一 可 以 选择 View in 


pane 或 者 View in window。 


5) 使 用 同一 个 文件 ， 你 也 可 以 通过 菜单 中 的 恰当 选项 来 生成 PDF 或 Word 文 档 。 要 生成 Word 文 档 ， 你 需要 在 系统 中 安装 好 
Microsoft Word， 要 生成 一 个 PDF 文 档 ， 你 需要 在 系统 中 安装 好 Latex PDF 生成 器 pdflatex。 注 意 在 源 数 据 中 ， 输 出 项 会 随 着 
你 在 菜单 中 选择 的 不 同 而 改变 。 


6) 现在 你 对 这 个 过 程 有 了 一 定 的 了 解 。 通 过 菜单 选项 中 的 File 一 Open file 来 打开 knitr.Rmd 文 件 ， 在 进一步 处 理 之 前 ， 编 
辑 文件 的 第 40 行 ， 将 root.dir 位 置 改 为 你 仓 放 本 章 文 件 的 位 置 。 为 了 便于 讨论 ， 我 们 会 逐步 增加 输出 。 


7) 元 数据 区 域 在 两 条 线 之 间 ， 每 条 线 为 三 个 连接 号 ， 如 下 所 示 (效果 如 图 8-2 所 示 ) : 


title: "Markdown Document" 
author: "Shanthi Viswanathan" 
date: "December 8, 2014" 
output: 
html document: 
theme: cosmo 
toc: yes 


Markdown Document 
Shanthi Viswanathan 
December 8, 2014 


è Introduction 
èe HTML Content 
e Embed Code 
o Set Directory 
© Load data 
a Plot Data 
a Plot with format options 


8) R Markdown 文 件 的 介绍 部 分 如 下 : 


= & ; 


# Introduction 

This is an *R Markdown document*. Markdown is a simple formatting 
syntax for authoring HTML, PDF, and MS Word documents. For more 
details on using R Markdown see <http://rmarkdown.rstudio.com>. 


When you click the **Knit** button a document will be generated 
that includes both content as well as the output of any embedded R 
code chunks within the document. 


这 一 部 分 也 可 以 从 图 8-3 中 看 到 。 


Introduction 


This is an R Markdown document. Markdown is a simple formatting syntax for authoring 


HTML, PDF, and MS Word documents. For more details on using R Markdown see 
http://rmarkdown.rstudio.com. 


When you click the Knit button a document will be generated that includes both content as 
well as the output of any embedded R code chunks within the document. 


9) 文件 的 HTML 内 容 如 下 : 


#HTML Content 

<p> This is a new paragraph written with the HTML tag 
<table border=1> 

<th> Pros </th> 

<th> Cons </td> 

S BN aee 

<td>Easy to use</td> 
<td>Need to Plan ahead </td> 
<r 

</table> 

atin > 


在 文件 中 ， 它 的 显示 如 图 8-4 所 示 。 


HIML Content 


This is a new paragraph written with the HTML tag 


Easy to uselNeed to Plan ahead 


图 8-4 


10) 启 入 R 人 代码。 将 下 面 root.dir 路 径 修改 为 你 存放 auto-mpg.csv 和 和 knitr.Rmd 文 件 的 文件 夹 : 


# Embed Code 
## Set Directory 


You can embed any R code chunk within 3 ticks. If you add 
echo=FALSE the code chunk is not displayed in the document. We can 
set knitr options either globally or within a code segment. The 
options set globally are used throughout the document. 


We set the root.dir before loading any files. By enabling 
cache=TRUE, a code chunk is executed only when there is a change 
from the prior execution. This enhances knitr performance. 


~*“{r setup, echo=FALSE, message=FALSE, warning=FALSE} 
knitr::opts chunkSset (cache=TRUE) 

knitr::opts knit$set(root.dir = "/Users/shanthiviswanathan/ 
projects/RCookbook/chapter8/") 


ss 


截图 如 图 8-5 所 示 。 


Embed Code 
Set Directory 


You can embed any R code chunk within 3 ticks. If you add 
echo=FALSE the code chunk is not displayed in the document. We can 
set knitr options either globally or within a code segment. The options 
set globally are used throughout the document. 


We set the root.dir before loading any files. By enabling cache=TRUE, 
a code chunk is executed only when there is a change from the prior 
execution, This enhances knitr performance, 


11) 载 入 数据 : 


##Load Data 
“~~~{r loadData, echo=FALSE} 
auto <- read.csv("auto-mpg.csv") 


ee 


12) 绘制 数据 : 


~**{r plotData } 
plot (autoSmpg~autosweight ) 


eS i 


前 述 命令 的 输出 如 图 8-6 所 示 。 
Plot Data 


plot (autoSmpg-autoSweight ) 
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13) TARTANA ee: 


iii E plotFormatData, echo=FALSE, fig.height=4, fig.width=8} 
plot (auto$mpg~auto$weight) 
str (auto) 


绘制 出 的 输出 截图 如 图 8-7 所 示 。 
14) 将 代码 嵌入 到 句子 中 间 : 


There are `r nrow(auto) cars in the auto data set. 


图 8-8 是 前 述 命令 的 输出 。 


工作 原理 


步骤 1 打开 了 RStudio。 


步骤 2 新 建 了 一 个 R Markdown 文 档 。 一 个 新 文档 包 合 一 个 默认 的 洛 在 两 条 绪 之 间 的 元 数据 区 。 每 条 线 由 三 个 短 横 组 成 。 这 
个 元 数据 区 包括 了 标题 和 输出 部 分 ， 同 时 可 以 选择 指定 作者 和 日 期 。 


步骤 4 展示 了 如 何 生 成 HTML 文 件 。 当 在 RStudio 中 运行 时 ， 你 可 以 通过 选择 合适 的 菜单 选项 来 指定 输出 格式 。 然 而 ， 我 们 
也 可 以 在 标准 的 R 环 境 中 用 knitr 来 运行 它 。 这 时 markdown 文 件 中 指定 的 输出 行 会 决定 输出 文档 的 格式 。 


步骤 5 展示 了 如 何 基于 markdown 文 档 生 成 PDF 或 者 Word 文 档 。 


Plot with format options 


3 
E F 
E _ 
1500 z000 2500 3000 3500 4000 4500 5000 
autoswelght 
## ‘data.frame': 398 obs. Gf 9 variables: 
#7 5 No : ant 12345678 9 16 
# $ mpg : num 28 19 36 28 21 23 15.5 32.9 
LO L3 vais 
## $ cylinders : int 4344648468 
## $ displacement: num 140 70 107 97 199 115 304 1 
19 250 318 
FF $ horsepower : int 90 97 75 92 390 95 120 100 1 


05 150 Aer 

F $ weight : int 2264 2330 2205 2288 2648 26 
94 3962 2615 3897 3755 ... 

## $ acceleration: num 15.5 13.5 14.5 17 15 15 13. 
9 14.8 18.5 14 

+ $ model year : int 71 72 82 72 70 75 76 81 75 
76 

fF $ car name : Factor WA 305 levels "amc ambass 
ador brougham",..: 66 184 165 86 8 18 1179 42 112 . 


i š 


图 8-7 


There are 398 cars in the auto data set. 


A 8-8 

步骤 6 打开 了 一 个 预先 创建 好 的 文档 用 以 说 明 knitr 的 一 些 重要 功能 。 我 们 在 此 分 块 解释 了 代码 的 作用 .。 
步骤 7 包 售 了 文档 的 元 数据 : 

有 三 种 输出 类 型 可 选 : Word、PDF 和 HTML。 

` 首先 ， 三 个 连接 号 意味 着 元 数据 区 域 的 开始 。 

‘toc: TRUE 将 用 文档 中 存在 的 标题 章节 名 来 生成 目录 。 这 会 在 下 一 市 中 解释 。 

“ 最 后 ， 三 个 连接 号 标志 着 元 数据 区 域 的 结 
步骤 8 中 包 合 了 我 们 的 文档 沁 例 中 的 介绍 部 分 : 

一行 中 的 三 个 星 号 会 输出 一 条 水 平 线 。 


用 一 个 # 开 始 的 行 指定 了 一 级 标题 。 如 果 元 数据 中 设置 了 toc: TRUE， 则 它 会 被 添加 到 目录 中 。 用 两 个 # 开 始 的 行 指 定 了 
二 级 标题 。 


` 将 文字 两 边 各 用 一 个 星 号 包围 会 得 到 斜体 输出 ， 将 文字 两 边 各 用 两 个 星 号 包围 会 得 到 加 粗 的 字体 。 
以 <http 开 始 ， 以 > 结束 的 文字 会 显示 为 URL。 
“ 查看 “更 多 细节 来 获取 最 常用 的 一 些 语法 。 

步骤 9 包含 了 我 们 的 文档 沁 例 中 的 HTML 内 容 : 


. 普通 HTML 代 码 可 以 被 嵌入 到 R Matkdown 文 件 之 中 。 只 有 当 输 出 格式 被 改写 成 HTML 之后，knitr 才 会 正确 显示 HTML， 你 
在 开始 HIML 代 码 前 必须 留 空 一 行 。 


. 在 这 一 部 分 中 ， 我 们 用 HIML 表 格 语法 来 生成 一 张 表 。 
步骤 10 展 示 了 如 何在 markdown 文 档 中 人 藤 入 R 代 和 码 : 


` 三 个 反 引 号 CO) 会 标记 R 代 码 块 的 开始 。 这 些 代 码 块 用 同样 的 三 个 反 引 号 来 标记 代码 的 结束 。R 代 码 块 从 小 写 的 fr 开始 ， 
后 接 一 个 可 选 的 名 字 (我 们 可 以 为 每 一 块 代码 选择 一 个 独一无二 的 名 字 ) 。 

> 我 们 推荐 你 不 要 将 用 来 设置 knitt 的 代码 和 普通 的 R 代 码 混 合 在 一 个 块 中 。 将 它们 分 隔 开 ， 放 在 不 同 的 块 中 。 在 这 一 步 中 ， 
我 们 设置 了 cache=TRUE 并 设 定 了 knitt 的 家 目录 。 在 此 设置 的 knitt 选 项 会 应 用 与 整个 文档 。 因 此 ， 对 于 此 设置 之 后 的 每 一 个 R 代 码 


块 ，cache 选 项 都 已 经 开启 。 


` 我 们 对 当前 代码 块 设置 了 显示 选项 。 若 echo=FALSE， 则 代码 块 不 会 在 文档 中 显示 出 来 。 类 似 地 ，message 二 FALSE 和 
watning=FALSE 会 在 文档 中 阻 断 任何 R 消 息 和 警告 。 


步骤 11 从 文件 中 载 入 了 数据 : 


:我们 展示 了 一 个 名 为 loadData 的 代码 块 用 于 读 取 一 个 .csv 文 件 到 一 个 变量 中 。 这 个 代码 块 不 会 在 文档 中 显示 出 来 ， 因 为 我 们 
选择 了 echo=FALSE。 


" 此 文件 的 位 置 来 自 于 我 们 在 上 一 步 所 设置 的 目录 。 同 样 的 ， 由 于 我 们 开启 了 cache， 此 文件 将 不 会 在 文档 的 每 次 生成 时 被 


步骤 12 和 步骤 13 绘 制 了 数据 : 


-我们 创建 了 一 个 名 为 PlotData 的 代码 块 。 报 告 中 显示 了 R 人 代码， 因为 echo 选 项 的 默认 值 是 真 。 当 一 段 R 代 码 会 产生 输出 


时 ，knitr 会 自动 将 其 输出 包含 在 所 生成 的 报告 中 。 
步 又 14 展 示 了 如 何在 一 行 中 家 入 R 代 人 码 : 
. 我 们 用 一 组 单个 反 引 号 包围 了 代码 。knitt 会 用 人 命令 的 输出 来 蔡 换 行内 及 代码 。 
- 因此 ，nrow (auto) 会 返回 autos 的 行 数 并 包含 于 所 生成 的 文档 中 。 
更 多 细节 


表 8-1 是 一 些 最 为 常用 的 markdown 语 法 元 素 列表 。 
完整 的 语法 元 素 列 表 可 参考 http://www.rstudio.com/wp-content/uploads/2015/02/rmarkdown-cheatsheet.pdf。 


表 8-1 


选项 备注 
科 体 字 
相 体 字 
新 建 一 段 行 末 保留 两 个 空格 
1 ~ 6 号 标题 # text, ## text, ### text 等 | 标题 会 用 合适 的 字体 显示 出 来 
水 平 线 <hr> 太太 大 绘制 一 条 水 平 线 


无 序列 表 (*, +, -) 注意 * 和 列表 项 + 和 之 间 的 空格 也 可 被 使 用 


se a 用 一 个 缩 进 的 + 来 创建 子 列表 ， 或 者 也 可 以 用 一 
进 的 - 或 者 * 来 创建 子 列表 


1. List item 
有 厅 列 表 1. Another 即使 对 于 有 序列 表 ， 缩 进 的 + 也 可 以 用 于 创建 子 项 


List item 


表 8-2 展 示 了 代码 段 的 多 种 显示 选项 。 


选项 描述 允许 的 取 值 


eval 在 代码 块 中 允许 代码 TRUE, FALSE; 默认 : TRUE 
echo 与 输出 一 起 展示 出 代码 TRUE, FALSE; 默认 : TRUE 
warning 显示 警告 信息 TRUE. FALSE; 默认 : TRUE 
error 显示 错误 信息 TRUE, FALSE; 默认 : FALSE 
message TRUE, FALSE; 默认 : TRUE 


”fo . . > 
results 显示 结果 markup, asis, hold, hide; 默认 : markup 


cache 缓存 结果 TRUE. FALSE: #kik: FALSE 


在 RSstudio 中 ， 单 击 knitr 按 钮 会 用 knitr 来 创建 输出 ， 你 也 可 以 直接 在 R 命 令 行 中 输入 命令 ， 当 你 将 第 二 个 参数 留 空 
时 ，markdown 文 件 的 输出 值 会 决定 输出 格式 : 


rmarkdown: :render ("introduction.Rmd","pdf document"). 


为 了 创建 markdown 文 档 中 所 有 提 到 的 输出 格式 ， 可 使 用 下 述 命令 : 


rmarkdown: :render ("introduction.Rmd", "all") 


2. 添 加 输出 选项 
可 以 添加 以 下 输出 选项 : 
要 建立 的 输出 文档 类 型 : 


- output: html document、 output: pdf document, output: beamer_presentation. output: ioslides_presentation、 output: 
p p p p p p p p 


word_document 
` 为 标题 编号 。 如 果 各 章节 没有 被 命令 ， 则 按照 顺 厅 依次 用 数字 命名 它们 : 
- number_sections= TRUE 
- 选项 fg width、fig_height 是 输出 图 片 的 默认 的 以 英寸 由 为 单位 的 宽 和 高 : 
- figures: fig width=7, fig_height=5 
主题 : 视觉 主题 ， 若 要 使 用 自 定义 的 CSS 则 传递 pull 给 它 。 


-CSS: 包括 文件 名 。 


[1] 1 美 寸 =0.0254 米 。 编辑 注 


8.3 ”用 shiny 创 建交 互 式 Web 应 用 


shiny 包 帮助 我 们 用 R 建 立 可 交互 的 Web 应 用 程序 。 本 方法 通过 一 些 例子 向 你 展示 一 个 shiny 应 用 程序 的 主要 组 件 。 


EMEA 


下 载 本 章 对 应 的 文件 并 将 它们 保存 到 你 的 R 工 作 目 录 中 。 本 章 的 代码 包含 多 个 子 文件 夹 中 的 文件 (名 为 DummyApp、 
SimpleApp、TabApp、ConditionalApp 和 SingleFileApp) 。 将 这 些 文件 夹 复制 到 你 的 R 工 作 目 录 中 去 。 


安装 并 加 载 shiny 包 ， 如 下 所 示 : 


> install.packages ("shiny") 
安装 完 shiny 之 后 重启 RStudio。 


要 怎么 做 
要 用 shiny 创 建 可 交互 的 网 页 应 用 程序 ， 请 遵循 如 下 步骤 : 


1) 通过 一 个 没有 任何 功能 的 傻瓜 应 用 程序 来 初步 认识 shiny。 你 的 R 工 作 目录 中 有 一 个 名 为 DummyApp 的 文件 夹 ， 其 中 包 
含 ui.R 和 server.R。 它 们 的 代码 如 下 : 


# ui.R 
library (shiny) 
shinyUI (pageWithSidebar ( 


headerPanel ("Dummy Application"), 
sidebarPaneli ( h3 ('Sidebar text') i; 
mainPanel( h3 ('Main Panel text') E io 


#server.R 
library (shiny) 
shinyServer (function (input,output) { } ) 


用 runApp ("DummyApp") 来 运行 这 个 应 用 程序 。 如 果 你 是 在 RStudio 中 的 代码 面板 中 载 入 这 些 文件 的 ， 只 需要 单 击 Run 
App 按 钮 。 


2) 你 的 R 工 作 目 录 中 的 SimpleApp 目 录 包 含 了 ui.R 和 server.R。 它 们 的 代码 如 下 : 


# uil.R 
library (shiny) 
shinyUI (fluidPage ( 
titlePanel ("Simple Shiny Application"), 
sidebarLayout ( 
sidebarPanel ( 
p("Create plots using the auto data"), 
selectInput("x", "Select X axis", 
choices = c("weight", "cylinders", "acceleration") ) 
T 
mainPanel( 
h4 (textOutput ("outputString")), 
plotOutput ("autoplot") ) ) 
)) 
)) 


# server.R 
auto <- read.csv("auto-mpg.csv") 
shinyServer (function (input, output) { 
outputSoutputString <- renderText (paste ("mpg ~", 
input$x)) 
output $autoplot <- renderPlot ( 
plot (as .formula (paste ("mpg -~-",input$x) ),data=auto) ) 


}) 


3) 输入 命令 runApp ("SimpleApp") ， 或 者 ， 如 果 你 将 前 述 文件 载 入 到 Rstudio 中 的 代码 面板 中 ， 则 只 需要 单 击 Run App 
按钮 来 运行 这 个 shiny 应 用 程序 。 这 个 应 用 程序 会 在 一 个 单独 的 窗口 中 显示 。 当 程序 运行 时 ，RStudio 无 法 执行 任何 其 他 命令 。 
要 退出 此 应 用 程序 ， 请 关闭 程序 窗口 或 者 在 Rstudio 中 按 Esc 键 。 


工作 原理 


一 个 shiny 程 序 通 弟 包 合 一 个 文件 夹 ， 其 中 有 ui.R 和 server.R 这 两 个 文件 。ui.R 中 的 代码 控制 着 用 户 界 面 ， 而 server.R 控 制 着 
程序 在 用 户 界 面 上 所 渲染 的 数据 ， 以 及 程序 如 何 啊 应 用 户 在 界面 上 的 操作 。 


在 步骤 1 中 ， 这 个 傻瓜 程序 给 出 了 一 个 简单 的 静态 用 户 界 面 ， 它 不 含有 用 户 交互 的 部 分 。 


ui.R 中 的 shinyU1 通 数 构 建 了 用 户 界 面 。 在 DummyApp 中 ， 此 沙 数 用 了 三 个 静态 元 素来 构建 界面 。 它 使 用 了 
pageWithSidebar 国 数 来 创建 一 个 市 有 静态 文字 的 由 headerPanel、sidebarPanel 和 mainPanel 所 组 成 的 页 面 。 


server.R 中 的 shinyServer 消 数控 制 了 应 用 程序 是 如 何 响应 用 户 行 为 的 。 此 消 数 在 服务 器 病 担 当 了 监听 的 角色 。 对 于 每 一 个 
用 户 行为 ，shinyServer 国 数 从 用 户 界面 中 获取 相关 值 。 服 务 器 端 相 天 的 监听 部 分 会 被 执行 并 将 输出 此 送 回 用 户 端 ， 并 在 屏幕 上 
刷新 数据 。shiny 包 的 反应 性 将 在 稍 后 解释 。 由 于 没有 一 个 用 户 可 以 真正 交互 操作 的 元 素 ， 所 以 它 的 shinyServer 国 数 是 空 的， 不 
能 对 用 户 行为 做 出 任何 反馈 。 


步骤 2 在 SimpleApp 文 件 夹 中 建立 了 一 个 简单 的 应 用 程序 。 这 个 程序 展示 了 反应 陈 编 程 的 元 素 一 一 一 个 真正 能 对 用 户 人 在 界面 
上 的 行为 作出 反应 的 程序 。shiny 市 有 生成 静态 htm| 的 功能 ， 同 样 市 有 html 代 码 也 可 以 生成 用 户 界 面 小 工具 ， 如 按钮 、 选 择 框 、 
下 拉 式 列表 等 。SimpleApp 中 的 ui.R 文 件 显 示 了 用 pp 函数 来 增加 一 段 HTML， 用 selectlnput 函 数 来 创建 一 个 下 拉 式 列表 ， 用 
textOutput 和 h4 国 数 来 创建 一 个 第 四 级 文字 ， 以 及 用 plotOutput 国 数 来 绘制 从 服务 器 问 得 来 的 输出 图 像 。 


shiny 有 多 个 界面 布局 选项 来 自 定 义 用 户 界面 的 外 观 。 在 本 方法 中 ， 我 们 用 的 fluidPage 包 含 了 三 个 面板 : titlePanel (标题 
t=) 、sidebarPanel ( 侧 边 栏 ) 、 和 mainPanel ( 主 面板 ) 。 


shiny 使 用 了 反应 式 编程 。 用 户 的 输入 (例如 ， 键 入 文字 ， 从 一 个 列表 中 选择 一 项 ， 或 者 单 击 一 个 按钮 ) 融 是 一 种 反应 式 来 
源 。 服 务 器 并 的 一 个 输出 ， 比 如 一 幅 图 片 或 者 数据 表格 ， 是 一 个 展现 在 用 户 的 浏览 器 窗口 上 的 反应 式 末 妆 。 每 当 反 应 来 源 改 变 
时 ， 使 用 这 个 来 源 的 反应 末端 会 得 知 这 一 变化 并 重新 执行 。 在 本 方法 中 renderText 和 renderPlot 都 是 反应 式 的 。renderText 依 
赖 于 输入 端 x， 这 意味 着 用 户 每 选择 一 个 不 同 的 x 时 ， 都 会 执行 renderText()。renderPlot 同 时 依赖 于 x 和 颜色 ， 因 此 它们 中 任何 
一 个 的 改变 都 会 导致 renderPlot 被 重新 执行 。 


当 运 行 这 个 应 用 程序 时 ，server.R 中 的 语句 shinyServer (function (input, output) 仅 在 这 个 程序 和 被 每 一 次 载 入 的 时 候 执 
行 一 遍 。 在 此 之 后 ， 对 于 每 一 个 用 户 界面 上 的 改动 ， 只 有 监听 消 数 的 相关 部 分 才 会 被 执行 。 


我 们 为 这 个 应 用 载 入 了 auto-mpg.csv 数 据 文件 。 我 们 通常 只 有 在 应 用 程序 初始 化 时 才 载 入 包 、 数 据 以 及 相关 的 R 源 代码 文 
件 。 


关于 shiny 的 完整 教程 请 参考 http://shiny.rstudio.com/tutorial。 我 们 在 此 附加 了 一 些 创建 shiny 网 页 应 用 的 重要 内 容 。 
1. 添 加 图 像 


要 人 在 用 户 界 面 中 添加 图 像 ， 需 要 将 图 像 文 件 保 存在 应 用 程序 文件 夹 下 的 www 目 录 中 。 同 时 在 ui.R 中 加 入 图 片 文 件 并 附 上 其 
高 和 宽 的 像素 值 ， 如 下 所 示 : 


img(src = "myappimage.png", height = 72, width = 72) 
csSs、javascript 和 jquery 文 件 都 保 仓 任 www 文 件 夹 中 。 


2 .添加 HTML 元 素 


shiny 提 供 了 一 些 用 于 HTML 标 记 的 R 销 数 。 我 们 已 经 在 第 一 个 傻瓜 程序 中 见 过 了 R 消 数 h3 ("text here") 。 类 似 的 ， 还 有 一 
些 R 消 数 比 如 p0、h10 可 在 shiny 应 用 程序 中 添加 段落 、 一 级 标题 等 。 


3. 添 加 标签 集 


可 以 用 tabPanel(0) 消 数 来 创建 标签 集 ， 且 每 一 个 标签 可 保留 其 自身 的 界面 组 件 。TabApp 文 件 夹 中 合 有 ui.R 和 server.R 文 件 ， 
可 生产 标签 或 者 用 尸 界面。 我 们 从 两 者 中 摘录 了 主要 代码 : 


# Excerpt from ui.R 
mainPanel ( 
tabsetPanel ( 
tabPanel ("Plot", textOutput ("outputString"), 
plotOutput ("plot")), 
tabPanel ("Summary", verbatimTextOutput ("Summary") ) ， 
tabPanel ("Table", tableOutput ("table")), 
tabPanel ("DataTable", dataTableOutput ("datatable") ) 


在 server.R 中 添加 功能 以 便 获 取 总 中、 表格 和 data.table 输 出 : 


# Excerpt from server.R to generate a summary of the data 
output$summary <- renderPrint ({ 
summary (auto) 


}) 


# Generate an HTML table view of the data 
outputStable <- renderTable ( { 
data.frame (x=auto) 


}) 


# Generate an HTML table view of the data 
outputSdatatable <- renderDataTable ({ 


auto 
}, options = list(aLengthMenu = c(5, 25, 50), iDisplayLength = 5)! 


}) 
renderDataTable 中 的 options 参 数 需要 一 个 列表 作为 输入 。 前 述 代码 指定 了 列表 中 的 项 以 及 下 拉 框 中 要 显示 的 项 目 个 数 。 
用 runApp ("TabApp") 运行 应 用 程序 来 查看 标签 和 内 容 。 如 果 "table" 标 签 显示 不 全 ， 可 以 增 大 浏览 器 窗口 的 尺寸 来 查 
看 . 
4 添加 一 个 动态 的 用 户 界面 
可 以 用 两 种 方法 创建 动态 用 户 界面 : 使 用 conditionalpPane| 或 者 renderUl。 我 们 在 本 节 中 分 别 给 出 一 个 例子 


我 们 用 conditionalPanel 来 有 条 件 地 显示 或 隐藏 一 个 UI 组 件 。 在 这 个 例子 中 ， 我 们 按照 用 户 的 选择 而 绘制 出 mpg 的 直方 图 
或 者 散 点 图 。 对 于 散 点 图 ,我 们 将 mpg 固 定 在 y 轴 上 并 让 用 户 选 择 x 轴 的 变量 。 因 此 我 们 需要 在 仅 当 用 尸 选 择 了 散 点 图 之 后 才 显 
示 出 一 组 可 能 作为 x 轴 的 变量 。 在 ui.R 中 ， 我 们 用 input.plotType! = hist 来 检查 这 个 条 件 ， 然 后 向 用 尸 展示 这 些 选 项 的 列表 : 


sidebarPanel ( 


selectInput ("plotType", "Plot Type", 
e("Seatter plot” = "scatter", Histogram = “hist"))., 
conditionalPanel (condition="input.plotType != 'hist'", 
selectInput ("xaxis","X Axis Variable", 


choices = c(Weight="wt", Cylinders="cyl", "Horse Power"="hp") ) 


)), 
mainPanel( plotOutput ("plot") ) 

为 了 检查 conditionalPanel 是 如 何 工作 的 ， 在 你 的 R 环 境 中 运行 runApp ("condi-tionalApp") 并 选择 绘图 类 型 。 只 有 当 你 
选择 了 散 点 图 之 后 ， 你 才 会 看 到 "X Axis Variable"。 在 这 个 conditionalPanel 的 例子 中 ， 所 有 的 工作 都 在 ui.R 中 完成 并 被 客户 端 
执行 。 

在 前 述 的 例子 中 ， 我 们 有 一 组 固定 的 变量 选择 集合 。 因 此 我 们 可 以 用 这 些 选择 来 创建 selectiInput。 如 果 这 个 列表 是 未 类 
的 ,是 依赖 于 用 尸 上 自己 所 选择 的 数据 集 呢 ? renderUIApp 文 件 夹 中 的 应 用 程序 展示 了 这 一 点 。 在 这 个 程序 中 ， 服 务 器 端 基 于 所 
选择 的 数据 集 来 动态 地 创建 变量 列表 。 

在 界面 组 件 中 ， 我 们 需要 一 个 存放 器 uiOutput ("var") ， 来 显示 每 次 在 用 户 界 面 选 择 不 同 数据 集 后 由 服务 器 瑞 所 生成 的 列 
表 。 

在 服务 器 组 件 中 ， 基 于 所 选择 的 数据 集中 的 变量 名 ， 我 们 用 renderUl 函 数 来 创建 output$var。 在 这 个 例子 中 ， 我 们 使 用 了 
一 个 反应 式 表达 ， 如 下 所 示 : 

datasetInput <- reactive({ 
switch (input$dataset, 


"rock" = rock, 
"mtcars" = mtcars) 


}) 


一 个 反应 式 表 达 会 读 取 输入 并 返回 输出 。 只 有 当 它 们 所 依赖 的 输入 友 生 变化 时 才 会 重新 生成 输出 。 每 一 次 生成 输出 之 后 , 它 


都 会 缓 仔 这 个 输出 并 一 直 使 用 它 直到 输入 值 有 友 生 改变 为 止 。 这 个 反应 了 式 表达 也 可 以 被 其 他 的 反应 陈 表达 或 者 一 个 render 函 数 所 
vH. 


5. 创 建 单 文件 网 页 应 用 


在 R 3.0.0 的 版 本 中 ， 一 个 shiny 应 用 可 以 只 包含 一 个 单独 的 app.R 文 件 以 及 其 所 需 的 数据 文件 和 所 依赖 的 R 源 代码 文件 。 创 建 
一 个 新 的 SingleFileApp 文 件 夹 并 将 下 载 下 来 的 app.R 文 件 保存 在 这 里 。 查 看 所 下 载 的 app.R 并 输入 命令 
runApp ("SingleFileApp") 来 启动 这 个 程序 。 


在 app.R 中 ，shinyApp (ui=ui，server=server) 这 一 行将 首先 被 R 执 行 。 这 个 shinyApp 国 数 返 回 一 个 shiny.appobj 类 型 的 
对 象 到 控制 台中 。 当 这 个 对 象 被 打印 时 ， 此 shiny 程 序 会 在 一 个 单独 的 窗口 中 局 动 。 


不 指定 应 用 目录 上 且 适用 除了 app.R 之 外 的 文件 名 来 创建 一 个 单 文件 shiny 应 用 程序 也 是 可 行 的 。 这 里 需要 调用 shinyApp 遂 数 
来 告诉 R 它 是 一 个 shiny 应 用 程序 。 然 后 ， 我 们 可 以 运行 print (source ("appfilename") ) 来 启动 这 个 应 用 程序 。 对 于 用 不 同 
名 字 运 行文 件 的 一 点 告诫 是 : 当 你 改动 此 文件 的 时 候 ， 应 用 程序 并 不 会 自动 重新 载 入 。 


8.4 用 R Presentation 为 分 析 报 告 创 建 PDF 幻 灯 片 


Rstudio 中 内 置 的 Rpres 能 使 你 创建 一 个 PDF 幻 灯 请 形式 的 数据 分 析 报 告 。 在 本 方法 中 ， 我 们 开 友 一 个 能 展示 Rpres 各 种 重要 
功能 的 小 应 用 程序 。 


ER ZA 


下 载 本 章 的 数据 文件 并 将 sample-image.png 和 Introduction.Rpres 文 件 保存 在 你 的 R 工 作 目 录 中 。 


1) 打开 RStudio。 

2) 用 以 下 步骤 创建 一 个 新 的 R 幻 灯 片 文档 : 

a) 打开 菜单 栏 中 的 File 一 New File 并 单 击 R Presentation 按 钮 。 
b) 输入 文件 名 RPresentation 并 将 其 保存 在 你 的 R 工 作 目 录 中 。 


c) RStudio 会 创建 一 个 扩展 名 为 Rpres 的 文件 。 此 文件 包含 一 个 默认 的 标题 页 (第 一 页 ) 和 一 些 样本 页 面 。 创 建 此 文件 的 同 
时 会 在 RStudio 环 境 的 右上 部 分 显示 它 的 预 哆 。 


d) 填写 author 和 date 然 后 单 击 Preview 按 钮 。 


e) 默认 情况 下 ， 预 狗 界 面 出 现在 RStudio 中 。 然 而 ， 为 了 正常 查看 所 有 功能 ， 请 在 幻灯 片 标 签 右 上 方 的 下 拉 菜 单 中 选择 


View in browser, 


f) 单 击 幻灯 卢 右 下 方 的 方向 稍 头 以 控制 播放 。 


3) 打开 你 之 前 下 载 好 的 R Presentation 文 件 : 
a) 打开 菜单 栏 中 的 File 一 Open File. 

b) 打开 Introduction.Rpres 文 件 。 

4) FAS RCS RAR: 


Slide with image 


! [Sample Image] (sample-image.png) 


5) 要 创建 两 列 的 界面 ， 请 遵循 如 下 步骤 : 
a) 这 两 列 被 单独 一 行 的 *** 所 隔 开 。 
b) 添加 下 面 这 一 页 : 


Two Columns 


**ColumnOne* * 

- this slide has two columns 

- the first column has text 

- the second column has an image 


22 


**ColumnTwo** 


! [Sample Image] (sample-image.png) Two Columns 


6) 为 幻灯 卢 添 加 转 场 动画 效果 : 
全 局 转 场 效果 设置 : 


Introduction 


ee i i a a i i a i i a a a i a a i aiM 


author: Shanthi Viswanathan 


date: 16 Dec 2014 
transition:rotate 


transition-speed:slow 
7) 添加 增 量 显 示 效 果 : 
在 首页 中 添加 如 下 代码 : 


Incremental Display 


transition: concave 


incremental: true 


工作 原理 


在 步骤 1 和 步骤 2 中 ， 我 们 创建 了 一 个 简单 的 幻灯 卢 。 


在 步骤 3 中 ， 我 们 打开 了 一 个 R 幻 灯 片 文档 。 当 一 个 文字 后 面 接着 一 组 (一行 中 至少 三 个 ) = 的 时 候 ， 这 个 文字 会 被 作为 标 


E 
o 


步骤 4 中 ， 我 们 使 用 了 标准 的 markdown 语 法 来 为 幻灯 片 添加 图 片 (感叹 号 后 接 被 方 括号 包围 的 文字 ， 后 接 被 小 括号 包围 的 
图 片 文件 名 ) 。 如 果 这 一 页 幻灯 片 中 没有 其 他 内 容 ， 则 此 图 片 会 全 屏 显示 。 


我 们 在 步骤 5 中 创建 了 一 个 两 列 的 幻灯 片 。 这 两 列 之 间 被 三 个 * 字 符 所 隔 开 。 这 次 的 图 片 将 填 满 其 所 在 的 列 。 


双星 号 指定 了 一 个 列 。 默 认 情 况 下 这 两 列 占据 了 50% 的 页 面 吏 度 。 在 一 个 两 列 的 布局 中 ， 每 一 列 上 默认 占据 50% 的 页 面 吏 度 。 
可 以 使 用 left 或 者 right 来 改变 这 个 设置 。 我 们 这 里 使 用 了 left: 40%, 


可 以 为 幻灯 片 中 的 所 有 页 面 设 置 统一 的 转 场 动画 效果 ， 或 者 也 可 以 为 每 一 页 分 别 指定 各 目的 转 场 动画 效果 。 黑 认 动 画 为 
linear。 要 一 次 性 为 所 有 页 面 设 置 转 场 动画 ， 可 将 其 添加 全 标题 页 中 ， 如 步骤 6 中 展示 的 那样 。 


默认 情况 下 ，RPres 会 在 展示 页 面 的 时 候 一 次 性 显示 出 所 有 的 页 面 元 素 。 我 们 可 以 通过 incremental=TRUE 来 改变 这 一 设 
置 。 列 表 项 、 代 码 块 ， 以 及 段落 都 可 以 通过 鼠标 单 击 逐条 显示 出 来 。 幻 灯 片 中 的 第 一 段 是 逐条 显示 出 来 的 ， 此 增 量 显示 规则 同样 
会 应 用 于 后 续 的 内 容 上 。 在 步骤 7 中 ， 我 们 会 在 展示 句点 的 时 候 看 到 这 一 效果 。 


我 们 现在 将 摘 述 一 绎 额外 的 选项 来 进一步 控制 显示 。 
1. 使 用 超 链接 


可 以 在 R 幻 灯 片 中 添加 外 部 或 内 部 链接 。 外 部 链接 使 用 同样 的 R Markdown 语 法 。 对 于 内 部 链接 ， 我 们 首先 需要 为 每 一 页 添 
加 一 个 id 然 后 添加 一 个 使 用 它 的 链接 ， 如 下 所 示 : 


Two Columns 


id: twocols 


First Slide 


[Go to Slide] (#/twocols) 


2. 控 制 显示 
R 弥 灯 卢 的 默认 尺寸 是 960x 700 像 素 。 然 而 ， 你 可 以 通过 指定 页 面 的 锅 或 遍 来 改变 这 一 尺 才 : 


Slide with plot 


title: false 
~**{r renderplot , echo=FALSE, out .width="1920px"} 
plot (cars) 


yo 


当 在 浏览 器 中 显示 幻灯 睛 的 时 候 ， 如 果 页 面 中 的 图 片 没有 完整 的 显示 出 来 ， 你 可 以 添加 fig.width 和 fig.height 设 置 ， 如 下 : 


Slide with plot 


title: false 

```{r renderplot,echo=FALSE, fig.width=8,fig.height=4, 
out .width="1920px"} 

plot (cars) 


ay a ee 


3. 美 化 幻灯 卢 的 外 观 


你 可 以 在 标题 页 中 设置 字体 ， 然 后 这 个 字体 将 会 应 用 到 所 有 页面 中 。 指 定 页 面 中 额外 设置 的 字体 会 禾 蘑 这 个 全 局 字体 设置 。 


Introduction 


author: Shanthi Viswanathan 
date: 16 Dec 2014 
font-family: Arial 


你 可 以 在 标题 页 中 包含 一 个 .css 文 件 ， 并 在 页 面 中 使 用 这 个 .css 文 件 所 定义 的 样式 ， 如 下 所 示 : 


Introduction 


author: Shanthi Viswanathan 
date: 16 Dec 2014 


css: custom.css 


Two Columns 


class: highlight 
left:70% 


L 


BIS ”事半功倍 一 一 局 效 且 简洁 的 R 代 码 


9.1 5/5 


R 编 程 语言 提供 了 循环 控制 结构 。 因 此 很 多 人 会 自动 在 它 的 代码 中 使 用 这 些 控制 结构 并 由 此 产生 了 性 能 问题 。 这 是 因为 R 在 
处 理 循环 时 非常 低 效 。 重 度数 据 处 理 和 R 中 的 大 数据 集 操作 要 求 我们 利用 另 一 种 强大 的 万 式 来 书写 简洁 、 优 雅 且 高 效 的 代码 ， 如 


- 向 量化 运算 将 元 素 集 合作 为 一 个 整体 进行 处 理 ， 而 不 是 一 个 元 素 一 个 元 素 的 处 理 。 


这 个 apply 家 族 函 数 可 对 行 、 列 或 列表 的 整体 进行 操作 而 无 须 显示 迭代 。 


1X Mplyr Lae T — KAA ply BK, CM AMPA, UGTA. 
- 这 个 data.table 包 提供 了 简单 有 效 的 函数 有 助 于 操纵 数据 。 


本 章 提供 了 使 用 所 有 这 些 功能 的 方法 。 


第 9 草 ”事半功倍 一 一 高 效 且 和 人 简洁 的 R 代 码 


R 编 程 语言 提供 了 循环 控制 结构 。 因 此 很 多 人 会 自动 在 它 的 代码 中 使 用 这 些 控制 结构 并 由 此 产生 了 性 能 问题 。 这 是 因为 R 在 
处 理 循环 时 非常 低 效 。 重 度数 据 处 理 和 R 中 的 大 数据 集 操作 要 求 我们 利用 另 一 种 强大 的 万 式 来 书写 简洁 、 优 雅 且 高 效 的 代码 ， 如 


下 : 
` 向 量化 运算 将 元 素 集合 作为 一 个 整体 进行 处 理 ， 而 不 是 一 个 元 素 一 个 元 素 的 处 理 。 
这 个 apply 家 族 函 数 可 对 行 、 列 或 列表 的 整体 进行 操作 而 无 须 显 示 和 迭代 。 
这 个 plyr 包 提供 了 一 大 类 的 **ply 函 数 ， 它 们 带 有 额外 的 功能 ， 包 括 并 行 处 理 。 
这 个 data.table 包 提供 了 简单 有 效 的 函数 有 助 于 操纵 数据 。 


本 章 提供 了 使 用 所 有 这 些 功能 的 方法 。 


9.2 利用 同 量 化 操作 


有 些 R 六 数 可 以 将 一 个 向 量 作为 一 个 整体 来 进行 操作 。 这 尝 冰 数 可 以 是 R 内 置 的 阔 数 ， 或 者 用 户 目 定义 的 阔 数 。 当 你 目 己 
代码 的 时 候 ， 在 把 一 切 交 给 一 个 循环 来 志 历 有 录 个 向 量 中 的 所 有 元 素 之 前 ， 最 好 至 看 一 下 是 人 否 可 以 利用 一 些 已 有 的 向 量化 亢 数 。 


ER MER 


如 果 你 还 没有 下 载 本 章 对 应 的 数据 文件 ， 现 在 去 下 载 并 将 auto-mpg.csv 保 存 到 你 的 R 工 作 目 录 中 。 


要 利用 向 量化 运算 ， 请 遵循 下 列 步 又 : 


1) 不 使 用 显 式 迭代 来 对 向 量 的 所 有 元 素 做 运算 (向 量化 操作 ) : 


first.name <- c("John", "Jane", "Tom", "Zach") 
last.name <- c("Doe", "Smith", "Glock", "Green") 


# The paste function below operates on vectors 


VV VV 


paste (first.name, last.name) 
[1] "John Doe" "Jane Smith" "Tom Glock" "Zach Green" 


> # This works even with different sized vectors 
> new.last.name <- c("Dalton") 
> paste (first.name,new.last.name) 


[1] "John Dalton" "Jane Dalton" "Tom Dalton" "Zach 
Dalton" 


2) 在 目 己 的 函数 中 使 用 向 量化 运算 : 


> username <- function(first, last) { 
tolower (paste0 (last, substr(first,1,1))) 


| 


> username (first.name, last.name) 


[1] "doej" "smithj" "glockt" "greenz" 


3) 在 一 个 向 量 的 所 有 元 素 上 隐 陈 地 应 用 算术 运算 


> auto <- read.csv("auto-mpg.csv") 
> autoSkmpg <- autoSmpg*1.6 


工作 原理 


通过 一 次 性 操作 整个 向 量 ， 向 量化 运算 减少 了 显 式 循环 的 需求 。R 处 理 循环 时 效率 不 高 ， 因 为 它 要 在 循环 中 一 人 遍 刀 地 解释 语 
句 。 因 此 ， 友 代 较 多 的 循环 在 运行 时 表现 很 糟 。 辐 量化 操作 有 助 于 我 们 摆脱 这 个 瓶 须 ， 同 时 也 使 我 们 的 代码 更 么 致 更 优雅 。 


几 个 内 置 函 数 是 可 向 量化 的 ， 步 骤 1 展 示 了 用 paste 卫 数 来 连接 字符 串 。 


步骤 1 的 后 面部 分 展示 了 ， 当 向 量 长 度 不 相同 时 ， 短 的 向 量 会 按 需 循环 使 用 。 这 个 长 度 为 1 的 new.last.name 回 量 重复 自身 来 
适 配 first.name 和 向 量 。 因 此 ， 这 个 姓 Dalton 与 first.name 中 的 每 一 个 元 素 粘 在 一 起 。 


向 量化 操作 对 内 置 汶 数 、 自 定义 国 数 和 算 木 运算 都 有 效 。 一 个 用 两 个 向 量 first.name 和 last.name 来 生成 用 户 名 的 目 定 尺子 
数 可 见 步骤 3。 


即使 当 我 们 对 向 量 和 标量 做 算术 运算 时 ， 向 量化 操作 也 仍然 有 效 。 步 骤 4 人 在 auto 数 据 框 中 创建 了 一 个 新 变量 kmpg 来 计算 每 
加 仑 汽油 的 公里 数 ， 它 可 以 代表 燃油 经 济 性 。 这 里 使 用 了 一 个 组 合 了 向 量 和 标量 的 简单 公式 。 


R 了 函数 如 sum、min、max、range 和 prod 会 将 它们 的 参数 合并 成 向 量 : 


4 Bit 123 74.5) 
[1] 15 
相反 的 ， 注 意 有 些 函 数 如 mean 和 median 并 不 会 将 参数 合并 成 向 量 并 产生 容易 误解 的 结果 : 
> mean(1,2,3,4,5) 


Pai) a 


> mean(c(1,2,3,4,5) ) 


[i] 3 


9.3 apply chase FEITE] 


apply xE LAXI—“S xB AYA ATES MANAPA EAA, FREI RA— SOIR. 


ER ZR 


本 方法 无 须 使 用 任何 外 部 对 象 或 资源 。 


要 对 和 矩阵 的 整 行 或 整 列 应 用 apply 函 数 ， 请 遵循 如 下 步骤 : 
1) 计算 息 阵 的 每 行 的 最 小 值 : 


> m <- matrix(seq(1,16), 4, 4) 


> m 

[,1] [,2] [,3] [,4] 
[1,] i 9 9 = 
[Z] 2 6 10 14 
Era 3 7 i I LS 
[4,] = 8 12 16 


> apply(m, 1, min) 
[1] 123 4 
2) 计算 和 矩阵 的 每 列 的 最 大 值 : 
> apply(m, 2, max) 


[1] 4 B 12 16 


3) DENE, BPS — SCR aE MAE ABE PITRAITS : 


> apply(m,c(1,2),function(x) Xx 2) 


LB [72] [3] Gd 


aya 1 25 81 169 
E < 36 100 196 
E 9 49 121 225 


[4,] 16 64 144 256 


4) STMT, HEESTERS ICN: 


> apply(m, 1, quantile, probs=c(.4,.8)) 
[,1] [,2] [,3] [,4] 

40% 5.8 6.8 7.8 8.8 

80% 10.6 11.6 12.6 13.6 


工作 原理 
步骤 1 创建 了 一 个 矩阵 并 生成 了 每 行 的 最 小 值 。 
- apply 的 第 一 个 参数 是 一 个 矩阵 或 数组 。 


. 第 二 个 参数 ( 称 为 margin) 指定 了 我 们 希望 如 何 将 这 个 矩阵 或 数组 分 割 成 片 。 对 于 一 结构 ， 我 们 可 以 用 1 来 操作 
行 ， 用 2 来 操作 列 ， 或 用 c (1，2) 来 操作 每 一 个 元 素 。 对 于 超过 二 维 的 矩阵 ，matgin 也 可 以 超过 2 并 指定 所 感 兴趣 的 维度 〈 参 
考 “ 更 多 细节 ”的 内 容 ) 。 


定 一 个 无 名 函数 
apply 函 数 依照 第 二 个 参数 对 矩阵 中 的 每 一 行 、 列 或 者 每 一 个 元 素 调用 指定 的 六 数 。 
apply 函 数 的 返回 值 取 决 于 margin 以 及 用 户 指定 函数 的 返回 值 类 型 。 


如 果 我 们 为 apply 函 数 提 供 超 过 三 个 参数 ， 它 将 传递 这 些 额 外 的 参数 到 所 指定 的 函数 中 。 第 四 步 中 的 prob 参 数 殉 是 这 样 一 个 
例子 。 在 步骤 4 中 ，apply 将 probs 同 量 传递 给 quantile 函 数 。 


Qaz 如 果 要 计算 一 个 甜 阵 的 行 / 列 均值 或 总 和 ， 最 好 使 用 高 度 优 化 过 的 colMeans、towMeans、colSums 和 ftowSums 有 函数 来 
替代 apply。 


这 个 apply 函 数 可 以 使 用 任意 维 硫 的 数组 作为 输入 。 同 样 ， 你 也 可 以 将 apply 用 在 数据 框 上 ， 这 需要 你 首先 用 as.matrix 将 数 
据 框 转换 成 矩阵 。 


在 一 个 三 维 数组 上 应 用 apply 


1) 创建 一 个 三 维 数组 : 


> array.3d <- array( seq(100,69), 
> array.3d 


dim = c(4,4,2) ) 


r 1 1 

[L1] L2] [,3] [,4] 
L] O00 96 92 88 
[2,] 99 95 91 87 
[3,] 98 94 90 86 
[4,] 97 93 89 85 
rı 2 

[,1] [,2] [,3] [,4] 
[1,] 84 80 76 72 
[2,] 83 79 75 #471 
Ey 82 78 74 70 
[4,] 81 77 pk 69 


2) 按照 第 一 和 第 二 个 维度 求 和 ， 我 们 得 到 一 个 包含 两 个 元 素 的 一 维 数组 : 


> apply (array.3d, 
[1] 1480 1224 


3, sum) 


> # verify 
> sum(85:100) 
[1] 1480 


3) 按照 第 三 个 维度 求 和 ， 我们 得 到 一 个 二 维 数组 : 


> apply (array.3d,c(1,2),sum) 
[, 1] 


184 
182 
180 
178 


LE el 
[2,] 
[3,] 
[4,] 


9.4 用 lapply 和 sapply 将 函数 应 用 于 整 组 元 素 


lapply 函 数 可 作用 于 向 量 、 列 表 或 数据 框 类 型 的 对 象 。 它 将 一 个 用 尸 指定 的 销 数 应 用 于 所 传 入 对 象 的 每 一 个 元 素 上 并 返回 结 


果 的 一 个 列表 。 


ER ZR 


下 载 本 章 的 数据 文件 并 将 auto-mpg.csv 保 存在 你 的 R 工 作 目 录 中 。 读 取 数 据 : 


[,2] 
176 
174 
172 
170 


[, 3] 
168 
166 
164 
162 


[, 4] 
160 
158 
156 
154 


> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


要 怎么 做 
为 了 通过 lapply 和 sapply 将 一 个 函数 应 用 于 一 组 元 素 上 ， 请 遵循 下 询 指导 步骤 : 
1) 在 一 个 简单 向 量 上 做 操作 : 


$ danppbyieti 2.3)... Sorc) 


[[1]] 
[1] 1 


[[2]] 
[1] 1.414214 


[ [3]] 
LA), Te T2054 


2) 使 用 apply 和 sapply 来 计算 一 组 对 象 的 均值 : 


Se ee Joao lee bait, p = etl, 10200, 1000) ， 
c=seg (5,50, by=5) ) 
> lapply(x, mean) 


Sa 

Pt Bs 

Sb 

tll 277.75 

Sc 

ia) 275 

> class (lapply (x,mean) ) 


LII "EIE" 
> sapply(x, mean) 


a b C 
5.50 277.75 27.50 


> class (sapply (x,mean) ) 


[1] "numeric" 


3) 对 auto 数 据 框 中 的 每 一 个 变量 计算 最 小 值 : 


> sapply(auto[,2:8], min) 
mpg cylinders displacement horsepower 
9 3 68 46 
weight acceleration model year 
1613 8 70 


工作 原理 


lapply 背 数 接受 三 个 参数 一 一 第 一 个 是 对 象 ， 第 二 个 是 用 尸 指定 的 消 数 ， 可 选 的 第 三 个 参数 用 于 为 指定 的 立 数 规定 额外 的 参 
数 。 无 论 第 一 个 参数 是 什么 类 型 ，lapply 遂 数 忆 是 返回 一 个 列表 。 


在 步 台 1 中 ，lapply 遂 数 将 sqrt 应 用 于 一 个 向 量 的 所 有 元 素 上 。lapply 忆 是 返回 一 个 列表 。 


步骤 2 中 包含 了 一 个 拥有 三 个 元 素 的 列表 ， 每 一 个 元 素 都 是 一 个 向 量 。 它 计算 了 这 些 向 量 的 均值 。lapply 遂 数 返 回 了 一 个 列 
表 ， 而 sapply 返 回 了 一 个 向 量 。 


在 步骤 3 中 ，sapply 补 用 来 将 一 个 函数 应 用 在 数据 框 的 询 上 。 基 于 显然 的 理由 ， 我 们 只 传递 了 拥有 数值 型 数据 的 列 。 


如 果 结 果 中 的 每 一 个 元 素 的 长 度 都 是 1， 则 sapply 遂 数 返 回 一 个 向 量 ， 如 果 返 回 列表 中 的 每 一 个 元 素 都 是 等 长 的 向 量 ， 则 
sapply 返 回 一 个 矩阵。 但 是 ， 如 果 我 们 指定 simplify=F， 则 sapply 始 终 返 回 列 表 。 黔 认 情 况 是 simplify=T， 如 下 : 


1. 动 态 输 出 


在 下 面 的 两 个 例子 中 ，sapply 返 回 一 个 和 矩阵。 如果 它 所 执行 的 遂 数 具有 定义 好 的 行 名 和 列 名 ， 则 sapply 可 将 它们 用 在 矩 阵 


上 : 
> sapply(auto[,2:6], summary) 
mpg cylinders displacement horsepower weight 
Min. 9.00 3.000 68.0 46.0 1613 
LAE Oi. Lao 4.000 104.2 76.0 2224 
Median 23.00 4.000 148.5 92.0 2804 
Mean rk etl 5.455 193.4 104.1 2970 
3rd Qu. 29.00 8.000 A 下 3608 
Max. 46.60 8.000 455.0 230.0 5140 
> sapply(auto[,2:6], range) 
mpg cylinders displacement horsepower weight 
[1,] 9.0 3 68 46 1613 
[2,] 46.6 8 455 230 5140 
2. 注 意 事项 


如 我 们 之 前 提 到 的 那样 ，sapply 的 输出 类 型 依赖 于 输入 对 象 ， 然 而 由 于 R 处 理 数据 框 的 方式 ， 这 可 能 会 得 到 “意料 之 外 ”的 
输出 : 


> sapply(auto[,2:6], min) 


mpg cylinders displacement horsepower weight 
9 a 68 46 1613 


在 前 面 的 例子 中 ，auto[，2: 6] 返 回 了 一 个 数据 框 ， 因 此 sapply 的 输入 是 一 个 数据 框 对 象 。 数 据 框 的 每 一 个 变量 (或 列 ) 被 


传递 给 min 消 数 ， 并 且 我 们 得 到 的 结果 是 一 个 同 量 ， 其 列 名 来 自 于 输入 对 象 。 试 一 试 这 个 : 


> sapply(auto[,2], min) 


[LI 26.0 19.0 36:0 26.0 21.0 23.0 15:75 32.9 16.0 13.0 12.0 30.7 
i3] 43.0 27.8 13.0 2328 25.0 14.0 14.0 23.0 20.5 26.6 20.0 20.0 
io) 26-4 16-0 208 15.0 TR. 425.0 26.5 23.0 25.8 2921. 2528 24.5 
Laz] TS.4 2020 82.0 26.0 20-6 17-5 14.0 24..0 27.0 25.1. 14.0 79.2 
[49] 2720 23:25 21:5 29.0 24:0 19:4 20.0 32.0 30:9 29:0 14:6 1420 
LELI cae 


上 友 生 这 种 情况 是 因为 R 将 auto[，2: 6] 作 为 数据 框 来 对 待 ， 而 将 auto[，2] 作 为 一 个 向 量 来 对 待 。 因 此 在 之 前 的 例子 
中 ，sapply 对 每 一 列 分 别 操作 ， 而 在 后 一 个 例子 中 ， 它 对 一 个 向 量 的 每 一 个 元 素 做 操作 。 


我 们 可 以 通过 将 auto[，2] 向 量 转 化 成 数据 框 并 传递 给 min 消 数 来 修正 这 一 代码 : 
> sapply(as.data.frame(auto[,2]), min) 


auto[, 2] 
9 


在 下 面 的 例子 中 ， 我 们 添加 了 simplify=F 来 强制 返回 一 个 列表 : 


> sapply(as.data.frame(auto[,2]), min, simplify=F) 
< artak ai 
[La 9 
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tapply 国 数 可 以 将 一 个 国 数 应 用 于 一 个 数据 集 的 每 个 分 块 上 。 因 此 ， 当 我 们 需要 在 有 一 个 因子 所 定义 的 向 量 的 子 集 上 计算 一 
个 阔 数 时 ，tapply 是 非常 方便 的 。 
准备 就 绪 

下 载 本 章 的 数据 文件 并 将 auto-mpg.csv 保 存在 你 的 R 工 作 目 录 中 。 读 取 数 据 并 为 cylinders 变 量 创 建 因 子 : 


> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 
> autoScylinders <- factor(auto$cylinders, levels = c(3,4,5,6,8), 
lapels = Gl doy Macyl", "Scy", “Govi®; "sav" )) 


要 怎么 做 
为 了 在 一 个 向 量 的 子 集 上 应 用 消 数 ， 请 遵循 下 列 步 又 : 


1) 为 每 一 种 cylinder 类 型 计算 平均 油耗 : 


> tapply (autosSmpg, auto$Scylinders, mean) 


3cyl Acyl 5cyl 6cyl 8cyl 
20.55000 29.28676 27.36667 19.98571 14.96311 


2) RIRSTABESTATA—-MIR. REXMIFTERTIMA-TATHIA, KERAARILMIFRA—-T, (HE 
你 可 以 修改 这 个 模板 : 


> tapply (autosSmpg, list (cyl=autoS$cylinders) ,mean) 


cyl 
3cyl 4cyl Sovi 6cyl 8cyl 
20.55000 29.28676 27.36667 19.98571 14.96311 


工作 原理 


在 步骤 1 中 mean 函 数 被 应 用 在 按照 auto$cylinders 所 分 组 的 auto$mpg 向 量 上 。 这 个 分 组 因子 必须 与 输入 向 量 长 度 相等 ， 
这 样 第 一 个 向 量 中 的 每 一 个 元 素 才 能 与 组 别 联 系 在 一 起 。 


按照 第 二 个 参数 所 定义 的 元 素 组 别 信 息 ，tapply 函 数 创建 了 第 一 个 参数 的 一 个 分 组 并 将 每 一 个 分 组 传递 给 用 尸 指定 的 销 数 。 


步骤 2 展示 了 我 们 其 实 可 以 用 多 个 因子 来 指定 分 组 。 在 这 个 例子 中 ，tapply 会 将 函数 应 用 到 所 指定 的 因子 的 每 一 个 唯一 的 组 
合 上 去 。 


类 似 于 tapply 函 数 ，by 函 数 会 将 一 个 函数 应 用 到 数据 集 的 行 的 一 个 组 别 上 。 但 它 传 递 了 整个 数据 框 。 下 面 这 个 例子 证 明了 
FA 


将 一 个 函数 应 用 到 数据 框 的 一 个 分 组 上 去 


在 下 面 这 个 例子 中 ， 我 们 为 每 一 种 气 杀 类 型 求 出 了 mpg 和 weight 的 相关 性 : 


> by(auto, autoScylinders, function(x) cor(x$mpg, xSweight) ) 
autoScylinders: 3cyl 
[1] 0.6191685 
autoScylinders: 4cyl 
[1] -0.5430774 
autoScylinders: 5cyl 
[1] -0.04750808 
autoScylinders: 6cyl 
[1] -0.4634435 
autoScylinders: 8cyl 
[1] -0.5569099 


9.6 用 plyr 完 成 分 判 - 应 用 -组 合 荣 略 


很 多 数据 分 析 任 务 需 要 首先 将 数据 分 割 成 一 些 子 集 ， 在 每 一 个 子 集 上 应 用 某 些 操作 然后 适当 地 合并 这 些 结果 。 一 种 常用 的 应 
用 方法 恰好 是 多 种 输入 输出 对 象 类 型 的 可 能 组 合 。plyr 包 提供 了 一 些 应 用 这 种 模式 的 简单 国 数 ， 它 通过 系统 性 的 函数 命令 来 简化 


一 个 plyr 函 数 名 有 三 个 部 分 : 

. 第 一 个 字母 代表 了 输入 对 象 的 类 型 。 
. 第 二 个 字母 代表 了 输出 对 象 的 类 型。 
. 第 三 到 第 五 个 字母 始终 是 ply。 


在 plyr 消 数 的 名 字 中 ，d 代 表 了 一 个 数据 框 ，| 代 表 了 一 个 列表 ，a 代 表 了 一 个 数组 。 举 个 例子 ，ddply 的 输入 输出 都 是 数据 
框 ，Idply 把 一 个 列表 作为 输入 并 生成 一 个 数据 框 作为 输出 。 有 了 时， 我 们 应 用 一 些 肖 数 只 是 为 了 得 到 它们 的 副产品 (比如 说 绘 
图 ) 而 并 不 需要 输出 对 象 。 在 这 种 情况 下 ， 我 们 可 以 用 _ 作 为 第 二 部 分 。 因 此 d_ply0) 将 一 个 数据 框 作为 输入 而 不 产生 输出 ， 这 是 
只 有 遂 数 应 用 时 的 副作用 |。 

ER MER 

下 载 本 章 所 对 应 的 数据 文件 并 将 auto-mpg.csv 文 件 保 存在 你 的 R 工 作 目 录 中 。 读 取 数 据 并 为 auto$cylinders 创 建 因 子 : 

> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


> autoScylinders <- factor(autoScylinders, levels = c(3,4,5,6,8), 
labels = o*Scayi",,. amy "beyi", “6ovl", "SerL")) 


在 你 的 R 环 境 中安 和 plyr 包 (如果 没 有 ) 。 可 以 用 下 面 的 命令 来 完成 。 


> install .packages ("plyr") 
> library (plyr) 


要 用 plyr 在 数据 分 析 中 使 用 这 个 “分 割 - 应 用 -合并 ”策略 ,请 遵循 如 下 步骤: 
1) 为 每 一 个 气 杀 数 类 型 的 车 计算 mpg (两 种 版 本 ) : 


> ddply (auto, "cylinders", function(df) mean(df$mpg) ) 
> ddply (auto, ~ cylinders, function(df) mean (df$mpg) ) 


cylinders V1 

1 3cyl 20.55000 
2 Acyl 29.28676 
3 5cyl 27.36667 
4 6cyl 19.98571 
5 8cyl 14.96311 


2) 为 每 一 个 气缸 数 类 型 和 车 型 年 份 计 算 mpg 的 均值 、 最 小 值 和 最 大 值 : 


> ddply(auto, c("cylinders","model year"), 
function (df) c(mean=mean(df$mpg) , 
min=min(dfSmpg), max=max(dfSmpg) ) ) 

> ddply(auto, ~ cylinders + model year, function (df) 
c(mean=mean(dfSmpg), min=min(df$mpg), max=max (df$mpg) ) ) 


cylinders model year mean min max 
q 3cyl 72 19.00000 19.0 19.0 
2 3cyl 73 18.00000 18.0 18.0 
3 3cyl a? A150000 2175 S225 
4 3cyl BO 23: 70000: 2427 24:7 
5 Acyl TU 25228571 22.0 27:0 
6 Acyl 71 21.46154 22.0 35.0 
7 Acyl TA 23.24857 16.0 26.0 
8 Acyl TA 22.1202) 19.0 25.0 
9 Acyl 74 27.80000 24.0 32.0 
10 Acyl TS 25-5000 22-0 33-0 
11 Acyl 76 26 76667 19.03320 
12 Acyl a? 29 207i. 2 
13 Acyl 78. 29-5768487 21-1 43.21 
14 Acyl 7S Si oS2500 22.3 2725 
ES 4cyl 80 34.61200 23.6 46.6 
16 4cyl 81 3281429 25.8 3921 
17 Acyl 82 32.07143 23.0 44.0 
18 5cyl 7B 20730000 20-3 20:3 
19 5cyl 79 25.40000 25.4 25.4 
20 SOY 80 36.40000 36.4 36.4 
Al 6cyl 70 20.50000 18.0 22.0 
22 6cyl 71 18.00000 16.0 19.0 
23 6cyl TA 19.00000 16.0 23.0 
24 6cyl 74. LY 65714 15.0 21.0 
25 6cyl TS Es L.A AL 
26 6cyl 76 20.00000 16.5 24.0 
27 6cyl Tr 19.50000 17-5 22/0 
28 6cyl 78 19.06667 16.2 20.8 
29 6cyl 79 22.95000 19.8 28.8 
30 6cyl BO 25 -30600 15.1 32-7 
a1 6cyl 81 23.42857 17.6 30.7 
a2 6cyl Be 28.33333 22:0 38.0 
es 8cyl 本 
34 8cyl TL T342857 12-0 14.0 
35 8cyl Ja 24281528. T120 T720 
36 8cyl Ja 13.20000 11.0 16.0 
37 8cyl 74, 14.20000 13-0 16.0 
38 8cyl 7S 25.85667 1370 20-0 
39 8cyl 76 14.66667 13.0 17.5 
40 8cyl Of 16200000 1520 TIS 
41 8cyl Te 19.05000 17-5 24.2 
42 8cyl 73 16..83000 125.5; 23.8 
43 8cyl 81 26.60000 26.6 26.6 


工作 原理 


步骤 1 中 使 用 了 ddply。 此 函数 接受 一 个 数据 框 作为 输入 并 生成 一 个 数据 框 作 为 输出 。 其 第 一 个 参数 为 auto 数 据 框 。 第 二 个 
参数 cylinders 摘 述 了 如 何 划分 数据 。 第 三 个 参数 是 要 应 用 到 每 一 个 组 件 上 的 函数 。 如 果 这 个 函数 需要 参数 ， 我 们 可 以 添加 人 额外 
的 参数 。 我 们 可 以 用 公式 的 形式 来 指定 用 于 分 割 的 因子 ， 比 如 ， 步 又 1 的 第 二 种 方法 那样 。 


步 又 2 展示 了 如 何 基 于 多 个 变量 来 分 割 数据 。 我 们 用 c (“cylinders", “model_year") 同 量 格式 来 通过 两 个 变量 分 割 数据 。 
我 们 也 同时 将 变量 命名 为 mean、min 和 max 来 蔡 代 默认 的 V1、V2 等 。 第 二 个 版 本 展示 了 公式 形式 的 使 用 方法 。 


在 这 一 节 中 ， 我 们 讨论 了 transform 和 summarize 国 数 ， 也 讨论 了 恒 等 函 数 |。 


1. 用 transform; 湛 加 一 个 新 列 


假设 你 想 增 加 一 列 来 反映 每 种 车 跟 其 所 在 组 的 油耗 均值 之 间 的 偏 帮 : 


> auto <- ddply(auto, .(cylinders), transform, mpg.deviation = 
round (mpg - mean (mpg) ,2) ) 


2.plyreavacasummarizete H 


下 述 代码 展示 了 使 用 summarize 时 得 到 的 输出 : 


> ddply (auto, .(cylinders), summarize, freq=length (cylinders), 
meanmpg=mean (mpg) ) 


cylinders freq meanmpg 


1 3cyl 4 20.55000 

Acyl 204 29.28676 
3 Seyi 3 27:36667 
~ 6cyl 84 19.98571 


vI 


8cyl 103 14.96311 


我 们 计算 了 用 气 所 数 分 组 之 后 的 数据 框 的 行 数 和 油耗 均值 。 


3. 连 接 一 列 数据 框 成 为 一 个 大 数据 框 


运行 如 下 代码 : 


> autos <- list(auto, auto) 
> big.df <- ldply(autos, I) 


ldply 函 数 接受 一 个 列表 型 输入 并 输出 一 个 数据 框 。 恒 等 函数 | 如 实 返回 答 入 值 。 如 果 输 入 值 是 列表 ， 则 不 会 根据 参数 来 分 市 
; 每 一 个 列表 元 素 都 会 作为 参数 传递 给 函数 。 


(\} 


9.7 ”用 数据 表 对 数据 进行 切片、 切 块 和 组 合 


R 提 供 了 一 些 包 来 做 数据 分 析 和 数据 操作 。 除 了 apply 家 族 轴 数 乙 外， 最 常用 到 的 包 是 plyr、reshape、dplyr 和 data.table。 
在 本 方法 中 ， 我 们 会 讨论 data.table， 它 可 以 非常 高 效 地 处 理 大 量 数据 ， 同 时 不 要 求 我 们 写 出 每 一 步 处 理 过 程 中 的 详细 代码 。 
准备 束 绪 
下 载 本章 对 应 的 数据 文件 并 将 auto-mpg.csv、employees.csvf0departments.csv 这 些 文件 保存 在 你 的 R 工 作 目 录 中 。 读 取 
数据 并 为 auto-mpg.csv 中 的 cylinders 创 建 因 子 : 
> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


> autoScylinders <- factor(autoScylinders, levels = c(3,4,5,6,8), 
tapels = VE "Acyi™. "Soni", "“6eyvi", Tacy") 


在 你 的 R 环 境 中 安装 data.table 包 ， 如 下 所 示 : 


> install.packages ("data.table") 
> library (data.table) 
> autoDT <- data.table (auto) 


在 本 方法 中 我 们 将 讨论 data.table， 它 可 以 非常 高 效 地 处 理 大 量 数据 ， 而 无 需 详 细 的 过 程 代码 。 要 做 到 这 一 点 ， 请 遵循 以 下 


1) 为 每 个 气缸 数 类 型 计算 油耗 均值 : 


> autoDT[, mean(mpg), by=cylinders] 


cylinders V1 

a Acyl 29.28676 

= 3cyl 20.55000 

2 e- 6cyl 19.98571 
4: 8cyl 14.96311 
Se 5Cyl. A736667 


2) 增加 一 列 和 存放 每 一 个 气缸 类 型 对 应 的 油耗 均值 : 
> autoDT[, meanmpg := mean(mpg), by=cylinders] 


> autoDT[1:5,c(1:3,9:10), with=FALSE] 


No mpg cylinders car name meanmpg 
it © 2s 4cyl chevrolet vega 2300 29.28676 
= = T9 3cyl mazda rx2 coupe 20.55000 
3: 2 16 Acyl honda accord 29.28676 
4: 4 28 4cyl datsun 510 (sw) 29.28676 
Ss S mal 6cyl amc gremlin 19.98571 


3) EWE BEA THLE Bl iS 285 | : 


> setkey (autoDT, cylinders) 


> tables () 


[1,] 


[1,] 


NAME 


autoDT 
COLS 


No, mpg, cylinders, displacement, horsepower, weight,acceleration, 
model year,car name 
KEY 


[1,] cylinders 


Total: 


1MB 


NROW NCOL MB 
398 


10 


> autoDT [("4cyl",c(1:3,9:10) , with=FALSE] 


No 


U e W N Pp 


200: 
201: 
202: 
203°: 
204: 


mpg cylinders 


on fF UU FH 


391 
392 
395 
396 
397 


296.0 
as 
28. 
23: 
32: 


Oo O O O 


Aa 
23. 
34. 
a0": 
30. 


me UO - 


4cyl 
4cyl 
4cyl 
4cyl 
4cyl 


4cyl 
4cyl 
4cyl 
4cyl 
4cyl 


car name 


chevrolet vega 2300 


honda accord 


datsun 510 (sw) 


datsun 200sx 


audi 100ls 


chevrolet chevette 


datsun 200-sx 


plymouth horizon tc3 


toyota corolla tercel 


chevrolet chevette 


4) 计算 不 同 气 负数 分 组 的 油耗 均值 、 最 小 值 和 最 大 值 : 


工作 原理 


> autoDT[, 


maxmpg=max (mpg) ), by=cylinders] 


VU e W N e 


cylinders 


3cyl 
Acyl 
5cyl 
6cyl 
8cyl 


meanmpg minmpg maxmpg 
FS i 


20 
29 
PA 
I9. 
14. 


.55000 
.28676 
过 和 


98571 
96311 


data.table 包 中 的 数据 表 比 *apply 系 列 函 
其 中 数据 表 DT 的 行 是 i 的 子 集 ， 这 些 子 集 通过 by 分 组 后 计算 j。 


18:20 


N 
> 
O O U O 


46. 
SG. 
SB. 
26. 


NO oO fF OV 


meanmpg 


29 
29 
29 
29 
29 


29 
29 
29 
29 
29 


.28676 
.28676 
.28676 
.28676 
.28676 


.28676 
.28676 
.28676 
.28676 
.28676 


list (meanmpg=mean (mpg), minmpg=min (mpg), 


数 和 六 ply 系 列国 数 更 加 高 效 。 简 单 的 data.table 写 法 为 DT[i，j，by] 这 样 的 形式 ， 


在 步骤 1 中 对 数据 表 中 的 所 有 行 通过 cylinders 分 组 后 计算 mean (mpg) ， 省 略 挥 i 意味 着 包含 数据 表 中 的 所 有 行 。 


要 新 建 一 列 存 放 计 算出 的 j， 


类 型 的 mean (mpg) 。 


默认 情况 下 ，with 参 数 被 设 定 为 TRUE， 此 时 j 通 数 会 在 数据 框 的 每 一 个 子 集 上 运 


EE 
As 


要 如 步骤 2 中 那样 加 上 : =。 这 里 我 们 在 数据 表 中 新 建 一 列 meanmpg 来 存放 每 一 个 气 杀 数 


PA 


1To 


然而 ， 如 果 不 需要 做 计算 而 


SA 
只 十 


要 抽取 


数据 的 话 ， 我 们 也 可 以 指定 with=FALSE。 在 这 个 例子 中 ， 数 据 表 跟 数 据 框 一 样 操 作 。 


与 数据 框 不 同 的 是 ， 数 据 表 没 有 行 名 ， 取 而 代 之 的 ， 我 们 可 以 定义 键 并 用 它们 来 对 行 索 引 。 步 骤 3 中 将 cylinders 定 义 为 键 ， 
然后 用 autoDT["4cyl"，c (1: 3, 9: 10) ，with=FALSE] 来 抽取 出 键 值 为 4cy| 的 数据 。 


我 们 可 以 用 setkeyv (DT, c ("col1", "col2") ) 来 定义 多 个 键 ， 其 中 DT 是 数据 表 ，col1 和 col2 是 数据 表 中 的 两 询 。 在 步 
骤 3 中 ， 当 定义 了 多 个 键 之 后 ， 可 以 用 autoDTI[. ("4cyl") , c (1: 3, 9: 10) ，with=FALSE] 来 抽取 数据 。 


当 DT[Ii，j，by] 中 的 本身 是 一 个 数据 表 时 ，R 会 依照 键 值 来 连接 两 个 数据 表 。 如 果 键 值 没 有 被 定义 ， 则 会 显示 错误 信息 。 然 
而 对 于 by 来 说 键 值 不 是 必要 的 。 


我 们 在 此 介绍 一 些 使 用 data.table 的 高 级 技巧 。 


1. 增 加 多 个 聚合 列 
在 步骤 2 中 ， 我 们 增加 了 一 列 计算 得 到 的 meanmpg。 这 个 : = 语法 会 计算 变量 并 将 其 融合 到 原始 数据 中 : 


> # calculate median and sd of mpg grouped by cylinders 

> autoDT[,c("medianmpg","sdmpg") := list (median(mpg),sd(mpg)), 
by=cylinders] 

> # Display selected columns of autoDT table for the first 5 rows 


> autoDT[1:5,c(3,9:12), with=FALSE] 


cylinders car name meanmpg medianmpg sdmpg 
Lz 3cyl mazda rx2 coupe 20.55000 20:25 2.564501 
A 3cyl maxda rx3 20.55000 20.25 2.564501 
3 3cyl mazda rx-7 gs 20.55000 20.25 2.564501 
4: SOL mazda rx-4 20.55000 20u25 2.564501 
Ss 4cyl chevrolet vega 2300 29.28676 26:25. 5. 7L0OLS6 
2. 分 组 计数 


我 们 可 以 很 方便 地 计算 每 组 中 的 行 数 ， 如 下 : 


> autoDT[,.N ,by=cylinders] 
cylinders N 


1: 3cyl 4 
= Acyl 204 
a: 5cyl 3 
4: 6cyl 84 
a 8cyl 103 


我 们 也 可 以 在 选取 子 集 后 计数 ， 如 下 : 


> autoDT["4cyl1", .N] 
[1] 204 


3. 删 除 一 列 


通过 将 一 列 设置 为 NULL， 我 们 可 以 方便 地 删除 它 ， 如 下 所 示 : 


> autoDT[,medianmpg: =NULL] 


4. 连 接 数 据 表 


我 们 可 以 在 数据 表 上 定义 一 个 或 者 多 个 键 ， 并 用 它们 来 连接 数据 。 假 设 有 一 个 定义 了 键 的 数据 集 DT， 如 果 DT[，j，by] 中 的 
i 也 是 一 个 数据 集 ，R 会 通过 DT 的 键 来 连接 这 两 个 数据 表 。 它 将 DT 的 第 一 个 键 与 的 第 一 询 连接 ，DT 的 第 二 个 键 与 的 第 二 列 连 
接 ， 以 此 类 推 。 如 果 DT 上 没有 定义 键 ， 则 R 返 回 一 个 错误 。 


emp <- read.csv("employees.csv", stringsAsFactors=FALSE) 

dept <- read.csv("departments-1.csv", stringsAsFactors=FALSE) 
empDT <- data.table (emp) 

deptDT <- data.table (dept) 

setkey (empDT, "DeptId") 


VV Vv VV 


此 时 我 们 有 两 个 数据 表 empDT 和 deptDT， 并 且 在 empDT 上 定义 了 键 。 数 据 表 deptDT 中 的 部 门 1D 也 恰好 是 第 一 列 。 我 们 现 
在 可 以 用 如 下 代码 按照 部 门 1D 来 连接 这 两 个 数据 表 。 注 意 ，deptDT 中 的 列 名 并 不 需要 符合 empDT 的 键 名 一 一 只 需要 列 的 位 置 
IERT. 


> combine <- empDT [deptDT] 
> combine [, .N] 
[1] 100 


为 了 避免 无 意 中 生 成 很 大 的 集合 ， 数 据 表 的 join 操 作 会 检查 结果 集 是 否 会 比 任 何 一 个 数据 表 更 大 。 如 果 是 ， 它 会 立刻 停止 并 
给 出 错误 消息 。 但 不 斑 的 是 ， 即 使 在 一 些 完美 有 效 的 情况 中 ， 这 种 检查 也 会 出 错 。 


例如 ， 如 果 deptDT 表 中 有 两 个 部 门 没有 在 empDT 中 出 现 ， 则 连接 操作 会 产生 102 行 而 不 是 100 行 。 因 为 结果 中 的 行 数 比 原 
来 两 个 表 中 的 行 数 多 ， 这 项 检查 会 产生 错误 消息 。 下 面 这 段 代 码 说 明了 这 一 点 : 


> dept <- read.csv("departments-2.csv", stringsAsFactors=FALSE) 
> deptDT <- data.table (dept) 

> # The following line gives an error 

> combine <- empDT [deptDT] 


Error in vecseq(f , len , if (allow.cartesian) NULL else 
as.integer (max (nrow (x), : Join results in 102 rows; more than 100 = 
max (nrow(x),nrow(i)) . (error message truncated) 


如 果 我 们 知道 做 的 是 正确 的 ， 我 们 可 以 用 allow.cartesian=TRUE 来 强制 R 进 行 连接 : 


combine <- empDT[deptDT, allow.cartesian=TRUE] 
combine [, .N] 
102 


我 们 得 到 了 102 行 ， 因 为 有 两 个 部 门 没有 员工 ， 黑 认 的 外 连接 操作 为 这 两 个 部 门 添加 了 额外 的 行 。 我 们 可 以 用 nomatch=0 
来 强制 实施 内 连接 操作 ， 如 下 所 示 : 


> mash <- empDT[deptDT, nomatch=0] 
> mash[, .N] 
[1] 100 


5. 使 用 符号 


我 们 可 以 在 数据 表 中 使 用 .3D、.EACHI、.N、.| 和 .BY 这 些 特殊 符号 来 增强 功能 。 我 们 已 经 见 到 过 .N 的 一 些 例 子 ， 它 代表 了 行 
数 ， 或 者 最 后 一 行 。 


符号 .SD 可 以 控制 除了 by 中 的 列 之 外 的 所 有 列 ， 并 只 能 在 数据 表 的 j 部 分 中 使 用 。 符 号 .SDcols 写 .SD 一 起 使 用 ， 它 用 于 在 数据 
表 的 j 部 分 中 包 合 或 排除 列 。 


符号 .EACHI 被 用 于 by 分 组 中 来 为 i 中 的 每 一 个 子 集 分 组 。 它 需要 一 个 定义 好 的 键 才能 使 用 。 如 果 没 有 定义 键 ， 则 R 会 抛 出 一 
个 错误 。 


在 下 面 的 例子 中 ， 我 们 计算 了 每 个 部 门 的 最 高 新 水 。 如 果 我 们 省 略 了 .SDcols="Salary"， 则 R 会 试图 为 所 有 列 找 出 最 大 值 。 
这 是 因为 .SD 默认 包括 了 所 有 列 。 此 时 R 会 抛 出 一 个 错误 ， 因 为 empDT 数 据 表 中 有 些 列 的 值 是 文字 型 的 。 


> empDT [deptDT, max(.SD), by=.EACHI, .SDcols="Salary"] 


Dept Id V1 
99211 
98291 
70655 

NA 
99397 
92429 

NA 


~] AN FP WD PB 
yy MO FP WD Pp 


在 下 面 的 例子 中 ， 我 们 计算 了 每 一 个 部 门 的 平均 薪水 。 我 们 将 这 个 计算 出 来 的 列 命名 为 Avgsalary。 我 们 可 以 在 j 部 分 中 使 用 
列表 或 者 .0 表达 法 : 


> empDT[,.(AvgSalary = lapply(.SD, mean)), 
by="DeptId", .SDcols="Salary"] 


DeptId AvgSalary 


a 1 63208.02 
a 59668.06 
zi 3 47603.64 
4: 5 59448.24 
Sa 6 51957.44 


在 下 面 的 例子 中 ， 我 们 计算 了 每 一 个 部 门 的 平均 薪水 。 我 们 也 通过 连接 empDT 和 deptDT 包 含 了 部 门 名 DeptName: 


> empDT [deptDT, list (DeptName, AvgSalary = lapply(.SD, mean)), 
by=.EACHI, .SDcols="Salary"] 
Dept Id DeptName AvgSalary 


1: 1 Finance 63208.02 
2: 2 HR 59668.06 
Ba 3 Marketing 47603.64 
4: 4 Sales NA 
5: 5 IT 59448.24 
6: 6 Service 51957.44 
7: 7 Facilities NA 
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10.1 引言 


地 图 以 及 其 他 形式 的 地 理 信息 包围 着 我 们 。 随 着 可 移动 位 置 感知 设备 的 普及 ， 人 们 发 现 要 将 空间 信息 加 到 其 他 数据 上 正 变 得 
越 来 越 容易 。 我 们 同样 也 可 以 基于 地 理 和 相关 信息 把 地 理 纬度 添加 到 其 他 数据 上 。 就 像 所 期 望 的 那样 ，R 有 包 来 处 理 地 理 空间 数 
据 并 将 其 可 视 化 ， 因 此 对 很 多 人 而 言 ， 处 理 地 理 空间 数据 变 得 很 容易 。sp、maptools、maps、rgdal 和 RgoogleMaps 包 提供 
了 必要 的 功能 。 在 本 章 中 我 们 设置 了 一 些 方 法 可 用 于 应 对 大 多 数 人 最 常用 的 操作 : 将 地 理 空间 数据 导入 R 并 可 视 化 。 读 者 如 果 需 
要 实现 更 加 高 级 的 操作 ， 则 请 查阅 专注 于 这 一 主题 的 文献 。 


第 10 章 ”在 哪儿 一 一 地 理 空 间 信息 数据 分 析 


10.1 引言 


地 图 以 及 其 他 形式 的 地 理 信息 包围 着 我 们 。 随 着 可 移动 位 置 感知 设备 的 普及 ， 人 们 友 现 要 将 空间 信息 加 到 其 他 数据 上 正 变 得 
越 来 越 容易 。 我 们 同样 也 可 以 基于 地 理 和 相关 信息 把 地 理 纬度 添加 到 其 他 数据 上 。 就 像 所 期 望 的 那样 ，R 有 包 来 处 理 地 理 空 间 数 
据 并 将 其 可 视 化 ， 因 此 对 很 多 人 而 言 ， 处 理 地 理 空间 数据 变 得 很 容易 。sp、maptools、maps、rgdal 和 RgoogleMaps 包 提供 
了 必要 的 功能 。 在 本 章 中 我 们 设置 了 一 上 毕 方法 可 用 于 应 对 大 多 数 人 最 音 用 的 操作 : 将 地 理 空间 数据 导入 R 并 可 视 化 。 读 者 如 果 需 
要 实现 更 加 高 级 的 操作 ， 则 请 查阅 专注 于 这 一 主题 的 文献 。 


10.2 “下载 并 绘制 一 个 地 区 的 谷歌 地 加 


可 以 使 用 RgoogleMaps 包 通过 经 纬度 来 获取 某 个 地 区 的 谷歌 地 图 并 绘制 出 来 。 这 个 方法 非常 便于 使 用 。 然 而 我 们 并 不 能 对 
地 图 元 素 实施 多 少 控制 ， 也 不 能 控制 绘图 效果 。 要 想 获 得 更 全 面 的 控制 ， 你 可 以 使 用 本 章 接 下 来 的 几 个 万 法 。 


ERS a 
用 下 列 命令 安装 RgoogleMaps 包 : 


install.packages ("RgoogleMaps") 


要 下 载 并 使 用 一 个 地 区 的 谷歌 地 图 ， 请 遵循 如 下 步骤 : 
1) 加 载 RgoogleMaps 包 : 


> library (RgoogleMaps) 


2) TEMS KAAS. HATE, RSS IE SERA SHOE. RAES 
为 : (lat, long) = (40.742634, -74.246215) . 


3) 从 谷歌 地 图 上 下 载 静 态 地 图 并 绘制 出 来 (如 图 10-1 所 示 ) : 
> shu.map <- GetMap(center = c(40.742634, -74.246215), 


zoom=17 ) 
> PlotOnStaticMap (shu.map) 


工作 原理 
步骤 1 载 入 了 RgoogleMaps 包 。 


步骤 2 中 确定 了 我 们 所 需 的 地 图 区 域 的 经 纬度 。 


ËN 


TAE SIBK NAA ia, 253 HAHGetMap ži RNEER FaR Æ shu.map. wlqzoom=1/isl T 
返回 地 图 的 放大 水 平 。 选 项 zoom= 1 给 出 了 整个 世界 ， 而 zoom=17 大 约会 覆盖 一 个 边 长 为 四 分 之 一 英里 中 的 正方 形 区 域 . 


步骤 3 中 用 PlotOnstaticMap 函 数 绘制 出 了 世界 地 图 。 
Be 


在 主 方法 中 ， 我 们 获取 了 地 图 数据 并 将 其 保存 在 R 变 量 中。 然而 我 们 也 可 以 将 其 保存 为 图 像 文 件 。 我 们 也 可 以 选择 下 载 几 个 
不 同 的 地 图 类 型 。 


1. 将 下 载 的 地 图 保存 为 图 像 文件 


使 用 destfile 选 项 将 所 下 载 的 地 图 保存 大 


> shu.map = GetMap(center = c(40.742634, -74.246215), 
zoom=16, destfile = "Shu.jpeg", format = "jpeg") 


GetMap 也 支持 其 他 图 像 格式 ， 比 如 png 和 gif。 更 多 细节 请 查看 帮助 文档 。 


默认 情况 下 GetMap 遂 数 返回 的 是 街道 地 图 (如 图 10-2 所 示 ) 。 你 可 以 用 maptype 人 参数 来 控制 返回 的 类 型 ， 如 下 : 


> shu.map = GetMap (center = c(40.742634, -74.246215), zoom=16, 
destfile = "shu.jpeg", format = "jpeg", maptype = "satellite") 
> PlotOnStaticMap (shu.map) 


«<j ~ = wa He 
P i fi I - a 


|magery 62015, BlUeSky, DigteiGlabe, WEDA Parra Service Ageney. 


GetMap 支 持 的 其 他 类 型 有 roadmap 和 terrain。 更 多 细节 请 查阅 帮助 文档 。 


[1] 1 英里 =1609.344 米 。 编辑 注 


除了 绘制 静态 的 谷歌 地 图 ，RgoogleMaps 也 人 允许 你 在 静态 地 图 上 翅 加 自己 的 数据 点 。 在 本 方法 中 ， 我 们 会 使 用 一 个 包含 了 


工资 和 地 理 空间 信息 的 数据 文件 来 绘制 数据 点 所 覆 匡 地 区 的 谷歌 地 图 ， 并 在 其 上 蔷 加 工资 信息 。RgoogleMaps 包 提供 了 非常 方 
便 的 用 法 但 并 不 允许 你 控制 地 图 元 素 以 及 地 图 的 绘制 方式 。 要 想 更 好 地 控制 这 些 ， 你 可 以 使 用 本 章 接 下 来 的 万 法 。 


安 流 这 个 RgoogleMaps 包 。 如 果 你 还 没有 下 载 nj-wages.csv 数 据 文件 ， 那 么 现在 去 下 载 并 确保 将 其 存放 在 你 的 R 工 作 目 录 
中 。 这 个 文件 包含 了 从 新 泽 西 教育 部 门下 载 的 信息 并 混合 了 从 http://federalgovernmentzipcodes.us 下 载 的 经 纬度 信息 。 


要 怎么 做 
要 在 下 载 的 谷歌 地 图 上 老 加 数据 ， 请 遵循 下 列 步 又 : 


1) 载 入 RgoogleMaps 并 读 取 数据 文件 : 


> library (RgoogleMaps) 
> wages <- read.csv("nj-wages.csv") 


2) 将 工资 转换 成 分 位 数 以 便于 绘图 : 


> wagesSwgclass <- cut (wagesSAvgwg, quantile (wagesSAvgwg, 
probs=seq(0,1,0.2)), labels=FALSE, include.lowest=TRUE) 


3) 创建 调 色 板 : 


> pal <- palette (rainbow(5) ) 


4) 绑 定 数据 框 : 
> attach (wages) 
5) 获取 数据 所 禾 关 地 区 的 谷歌 地 图 : 


> MyMap <- MapBackground(lat=Lat, lon=Long) 


[1] "http://maps.google.com/maps/api/staticmap?center=40.115, - 
74.715&zoom=8 &size=640x640&maptype=mobile&format=png32&sensor=tr 
ue W 


center, zoom: 40.115 -74.715 8 


6) 用 与 平均 工资 分 位 数 成 正比 的 颜色 和 尺寸 的 点 来 绘制 地 图 : 


> PlotOnStaticMap(MyMap, Lat, Long, pch=21, cex = 
sqrt (wgclass) ,bg=pal[wgclass] ) 


7) 添加 图 例 : 


> legend("bottomright", legend=paste("<=", 
round (tapply (Avgwg, wgoclass, max))), pch=21, pt.bg=pal, 
pt.cex=1.0, bg="gray", title="Avg wgs") 


输出 的 效果 如 图 10-3 所 示 。 
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工作 原理 


步骤 1 载 入 了 RgoogleMaps 包 并 读 取 了 数据 文件 。 这 个 文件 包含 了 新 泽 西 几 个 学 区 的 地 理 数 据 以 及 其 他 数据 。 我 们 的 目标 
是 展示 一 块 地 区 的 谷歌 地 图 并 在 其 上 蔷 加 各 个 学 区 的 平均 工资 。 


在 步骤 2 中 cut 函 数 被 用 在 Avgwg 列 上 来 创建 一 个 新 的 列 ， 名 为 wgclass。 这 一 列 代表 了 一 个 学 区 所 属 的 分 位 数 。 
步骤 3 创建 了 一 个 包含 5 种 颜色 的 调 色 板 。 
在 步骤 4 中 wages 绑 定 了 数据 框 ， 这 样 可 以 方便 地 调用 变量 。 


在 步骤 5 中 MapBackground 国 数 被 用 来 得 到 一 个 区 域 的 静态 合 歌 地 图 。 我 们 传递 了 所 有 的 经 纬度 ，MapBackground 函 数 
使 用 它们 来 确定 地 图 的 总 体 范 围 。 


步骤 6 使 用 了 PlotOnStaticMap 销 数 来 绘制 步骤 5 中 的 地 图 。 除 了 绘制 第 5 步 中 的 静态 地 图 ， 这 一 步 也 绘制 出 了 一 些 单 独 的 
挟 。 因 为 这 个 命令 的 调用 将 点 的 经 纬度 作为 第 二 和 第 三 个 参数 传递 给 了 辫 数 。 其 他 一 些 参数 的 作用 如 下 : 


pch 决 定 了 每 一 个 点 的 形状 。 
cex 根 据 其 分 位 数 决 定 了 每 一 个 点 的 尺寸 大 小 。 


“ bg 根据 其 分 位 数 决 定 了 每 个 点 的 背景 色 。 


步骤 7 中 我 们 调用 了 legend 函 数 来 添加 图 例 。 其 参数 的 作用 如 下 : 
. 第 一 个 参数 决定 了 图 例 的 位 置 。 
. 这 个 legend 函 数 提供 了 用 于 图 例 的 文字 向 量 。 它 通过 为 每 一 个 工资 级 别 找到 Avegwg 的 最 大 值 来 创建 这 个 向 量 。 
. 与 之 前 一 样 ，pch 决 定 了 每 个 点 的 形状 。 


- 参数 pt.bg 决 定 了 用 于 图 例 点 背景 设 的 调 色 板 。 


数 pt.cex 决 定 了 图 例 点 的 大 小 。 


数 bg 决定 了 整个 图 例 的 背景 色 。 


- 参数 title 指 定 了 图 例 的 标题 。 


10.4 ”将 ESRI 形 状 文件 导入 到 R 中 


一 些 组 织 公 开 了 免费 获取 的 ESRI 形 状 文件 ， 你 可 以 使 它们 适应 你 的 需求 。RgoogleMaps 用 起 来 非常 信 单 ， 而 且 我 们 也 友 现 
它 提 供 了 很 少 的 用 于 控制 地 图 元 素 和 画图 的 选项 。 另 一 方面 ， 导 入 形状 文件 的 做 法 可 以 使 我 们 有 完全 的 控制 权 。 当 我 们 需要 很 好 
地 控制 单独 元 素 的 泻 染 而 不 是 仪 仅 绘 制 一 幅 地 图 图 像 时 ， 我 们 应 该 倾向 于 使 用 这 种 方法 。R 中 的 rgdal 包 提供 了 下 载 形状 文件 的 
功能 ， 它 可 以 将 文件 保存 为 sp 包 可 以 处 理 的 格式 。 


ES 

sRrgdalaisph. 4A SIXABAAMR, EMac OS XLezergdal@ik em. RAMA AI, ARASA 
操作 系统 在 安 委 时 需要 的 步骤 也 不 尽 相同 。 你 需要 从 网 上 研究 一 下 如 何 安 委 它 。 

将 下 列 文 件 复制 到 你 的 R 工 作 目 录 中 : 

- ne_50m_admin_0_countries.shp 

- ne_50m_admin_0_countries.prj 

- ne_50m_admin_O_countries.shx 

- ne_50m_admin_0_countries. VERSION. txt 

- ne_50m_airports.shp 

- ne_50m_airports. pr 

* ne_50m_airports.shx 

* ne_50m_airports. VERSION. txt 


我 们 可 以 从 http://www.naturalearthdata.com/ 上 获取 这 些 文件 。 


要 把 ESRI 形 状 文件 导入 R， 请 遵循 如 下 步骤 : 
1) 载 入 sp 和 rgdal 包 : 


> library (sp) 
> library (rgdal) 


2) 读 取 各 国 的 ESRI 文 件 : 
> countries sp <- readOGR(".", "ne 50m admin 0 countries") 


OGR data source with driver: ESRI Shapefile 


Source: ".", layer: "ne 50m admin 0 countries" 
with 241 features and 63 fields 


Feature type: wkbPolygon with 2 dimensions 


> class(countries sp) 


[1] "SpatialPolygonsDataFrame" 
attr(,"package") 
[1] "sp" 


3) 读 取 各 个 机 场 的 ESRI 文 件 : 
> airports sp <- readOGR(".", "ne 50m airports") 


OGR data source with driver: ESRI Shapefile 
Source: ".", layer: "ne 50m airports” 
with 281 features and 10 fields 


Feature type: wkbPoint with 2 dimensions 
> Class(airports sp) 
[1] "SpatialPointsDataFrame" 


attr(, "package") 
[1] "EREI" 


工作 原理 
步骤 1 载 入 了 sp 和 rgdal 包 。 


步骤 2 中 ，rgdal 包 中 的 readOGR 卫 数 被 用 来 读 取 ne 50m admin 0 countries.shp 形 状 文 件 层 。 一 个 ESRI 形 状 文件 中 的 某 
一 层 的 所 有 文件 都 有 相同 的 文件 名 和 不 同 的 扩展 名 。 每 一 个 文件 都 包含 了 地 图 中 一 个 层 的 一 些 信息 。readOGR 消 数 的 第 一 个 参 
数据 定 了 dsn (数据 源 的 名 称 ) ， 或 者 是 包 合 这 个 层 的 目录 ， 而 第 二 个 参数 据 定 了 所 需 读 取 的 层 。 


步骤 2 的 结果 显示 出 readOGR 消 数 返 回 了 一 个 SpatialPolygonsDataFrame 类 的 对 象 。sp 包 定义 了 几 个 空间 类 ， 其 中 包 合 
SpatialPolygonsDataFrame。 这 个 类 用 polygon 的 形式 存放 了 每 个 国家 的 空间 信息 ， 并 额外 地 将 每 一 个 国家 的 非 空间 属性 存放 
于 一 个 被 称 为 data 的 槽 中 。 事 实 上 ， 一 个 SpatialPolygonsDataFrame 对 象 就 是 一 个 附带 有 非 空间 属性 的 空间 对 象 ( 一 组 多 边 


HZ) 。 


步骤 3 使 用 了 readOGR 函 数 来 读 取 一 个 名 为 ne 50m airports 的 层 。 检 查 这 个 对 象 的 类 可 以 发 现 其 是 一 个 
SpatialPointsDataFramextx. WiRSpatialPolygonsDataFrame—#¥, XTRSpatialPointsDataFrameW=H— MTS A AES IA) 
属性 的 空间 对 象 。 


10.5 ”使 用 sp 包 绘 制 地 理 数据 


sp 包 具 有 保存 和 绘制 地 理 空间 数据 的 必要 功能 。 在 本 方法 中 ， 我 们 使 用 sp 包 来 绘制 已 导入 的 形状 文件 。 
准备 融 绪 
安装 rgdal 和 sp 包 。 如 果 你 在 Mac 或 Linux 系 统 上 安装 rgdal 包 时 遇 到 了 一 些 问题 ， 请 参考 之 前 的 方法 。 
将 下 列 文 件 复制 到 你 的 R 工 作 目 录 中 : 
.ne_50m_admin_0_countries.shp 
.ne_50m_admin_0_countries.pr 
.ne_50m_admin_ 0_countttes.Shx 
- ne_50m_admin_O_countries. VERSION. txt 
. ne_50m_aitports.shp 
. ne_50m_aitpotts. prj 
- ne_50m_aitpotts.shx 
- ne_50m_airports. VERSION. txt 
我 们 可 以 从 http://www.naturalearthdata.com/ 上 获取 这 些 文件 。 
要 怎么 做 
要 使 用 sp 包 来 绘制 地 理 空间 数据 ， 请 遵循 如 下 步骤 : 


1) 载 入 sp 和 rgdal 包 : 


> library (sp) 
> library (rgdal) 


2) 读 取 数 据 : 


> countries sp <- readOGR(".", "ne 50m admin 0 countries") 
> airports sp <- readOGR(".", "ne 50m airports") 


3) 绘制 黑白 的 国家 轮廓 


> # without color 


> plot (countries sp) 


4) RRK BAY ASCs : 


> # with color 


> plot (countries sp, col = countries sp@dataSadmin) 


5) 添加 机 场 。 请 勿 天 闭 上 一 幅 图 像 窗 口 : 


> plot (airports sp, add=TRUE) 


6) 绘制 经 济 水 平 (因子 型 ) : 
> Spplot (countries sp, c("economy") ) 


7) 绘制 人 口 (数值 型 ) : 


> spplot (countries sp, c("pop est") ) 


工作 原理 
如 果 你 还 没有 读 完 10.4 节 ， 那 么 请 务必 先 阅 读 它 。 
步骤 1 载 入 了 sp 和 rgdal 包 . 
步骤 2 使 用 readOGR 来 读 取 各 国 和 各 机 场 的 ESRI 形 状 文件 。 
步骤 3 展示 了 如 何 用 plot 消 数 绘制 黑 日 的 国家 轮廓 。 它 绘制 出 了 countries_sp 中 的 多 边 形 对 象 。 
步骤 4 与 步骤 3 类 似 ， 绘 制 了 国家 轮廓 但 增加 了 颜色 。 


步骤 ?使 用 了 plot 闵 数 配 合 add=TRUE 选 项 为 图 像 添 加 了 机 场 信息 。 这 个 airports_ sp 对象 包含 了 一 些 点 ，plot 阔 数 使 用 指定 
的 属性 ， 比 如 形状 和 大 小 ， 来 绘制 出 每 一 个 点 。 


在 步骤 6 和 步骤 7 中 我 们 演示 了 spplot 六 数 的 用 法 ， 其 利用 了 网 格 绘制 功能 、 这 些 步骤 显示 了 spplot 可 以 处 理 因 子 型 变量 和 数 


值 型 变量 。 


10.6 从 maps 包 中 获取 地 图 


maps 包 市 有 一 些 预 先 建立 好 的 地 图 ， 我 们 可 以 下 载 并 修改 它们 。 本 方法 演示 了 这 些 地 图 的 功能 。 
准备 束 绪 


“maps. 


要 怎么 做 
要 想 从 maps 包 中 获取 地 图 ， 请 遵循 如 下 步骤 : 


1) 载 入 maps 包 : 


> library (maps) 


2) 绘制 世界 地 图 : 

> # with country boundaries 

> map ("world") 

> # without country boundaries 

> map("world", interior=FALSE) 
3) 绘制 彩色 的 世界 地 图 : 

> map("world", fill=TRUE, col=palette (alnbow(7) ) ) 
4) 绘制 出 一 个 国家 的 地 图 : 


> # for most countries, we access the map as a region on the world 
map 
> map("world", "tanzania") 


> # some countries (Italy, France, USA) have dedicated maps that 
we can directly access by name 


> map ("france") 
> map ("italy") 


5) 绘制 美国 地 图 : 


> # with state boundaries 

map ("state") 

# without state boundaries 
map ("state", interior = FALSE) 
# with county boundaries 


VV Vv VV 


map ("county") 


6) 绘制 出 美国 的 一 个 州 的 地 图 : 


# only state boundary 
map("state", "new jersey") 
# state with county boundaries 


VV V V 


map ("county", "new jersey") 


工作 原理 


此 maps 包 中 市 有 几 个 地 图 数据 库 ， 这 使 我 们 能 有 效 使 用 地 图 的 一 些 功 能 。 


10.7 ”从 包含 空间 及 其 他 数据 的 普通 数据 框 中 创建 空间 数据 框 


当 你 有 一 个 市 有 空间 属性 和 其 他 属性 的 普通 数据 框 时 ， 将 它们 转换 成 完整 的 空间 对 象 会 使 得 处 理 过 程 变 得 更 简单 。 本 方法 展 
示 了 如 何 完成 这 种 转换 。 


EMEA 


安装 sp 包 。 下 载 nj-wages.csv 文 件 并 确保 将 其 存放 于 你 的 R 工 作 目 录 中 。 


要 处 理 一 个 带 有 空间 属性 的 普通 数据 框 ， 请 遵循 如 下 步骤 : 
1) 载 入 sp 包 : 


> library (sp) 


2) 读 取 数据 : 


> nj <- read.csv("nj-wages.csv") 
> class (nj) 
[1] "data.frame" 


3) 将 nj 转换 成 一 个 空间 对 象 : 


> coordinates(nj) w= c("Long", "Lat") 
> class (nj) 


[1] "SpatialPointsDataFrame" 
attr(,"package") 
[1] " sp" 

4) 绘制 点 (如 图 10-4 所 示 ) : 


> plot (nj) 


5) 将 这 些 点 转换 成 线 ， 并 绘制 出 它们 (如 图 10-5 所 示 ) : 


> nj.lines <- 


SpatialLines (list (Lines (list (Line (coordinates (nj))), 
"linenj"))) 


> plot (nj.lines) 


图 10-4 


图 10-5 


工作 原理 


步骤 1 载 入 了 sp 包 。 
步骤 2 中 读 取 了 数据 文件 ， 这 里 显示 nj 现在 是 一 个 普通 的 数据 框 对 象 。 


在 步骤 3 中 ，nj 数 据 框 中 的 变量 Lat 和 Long 通 过 coordinates 消 数 被 确定 为 空间 坐标 。 我 们 看 到 现在 nj 被 转换 成 一 个 
个 完整 的 空间 对 象 。 


SpatialPointsDataFrame 对 象 


10.8 ”通过 合并 普通 数据 框 和 空间 对 象 生 成 空间 数据 框 


我 们 常常 遇 到 一 些 附 高 有 地 理 方面 信息 的 数据 (比如 邮编 ) ， 但 却 没有 足够 的 地 理 坐 标 信息 来 绘制 它们 。 为 了 用 地 图 来 展示 
这 些 信息 ,我们 需要 将 基础 数据 与 足够 的 地 理 坐 标 信 息 相 融 合 ， 从 而 来 绘制 它们 。 这 个 sp 包 中 有 几 个 SpatialXXXDataFrame 
类 ， 可 以 将 地 理 位 置信 息 与 额外 的 摘 述 性 数据 一 起 展示 出 来 。 本 方法 将 展示 我 们 如 何 创建 并 绘制 此 类 对 象 。 在 本 万 法 中 ， 我 们 会 
演示 如 何人 从 maps 包 中 获取 一 个 地 图 并 将 其 转换 成 一 个 SpatialPolygons 对 象 。 然 后 我 们 会 从 一 个 普通 的 数据 框 中 添加 数据 并 创 
建 一 个 SpatialPolygonsDataFrame 对 象 ， 进 而 将 它 绘制 出 来 。 


EEA 


安装 sp、maps 和 maptools 包 。 下 载 nj-county-data.csv 文 件 到 你 的 R 工 作 目 录 中 。 


在 本 方法 中 我 们 演示 了 如 何 从 maps 包 中 获取 地 图 ， 并 将 其 转换 成 一 个 SpatialPolygons 对 象 ， 然 后 通过 为 其 添加 来 自 普 通 
数据 框 的 数据 来 得 到 一 个 SpatialPolygonsDataFrame 对 象 ， 进 而 绘制 出 这 个 对 象 。 要 完成 这 一 切 ， 请 遵循 如 下 步骤 : 
1) 载 入 所 需 的 包 : 
> library (maps) 
> library(maptools) # this also loads the sp package 
2) 获取 新 泽 西 州 的 都 县 级 地 图 : 


> nj.map <- map("county", "new jersey", fill=TRUE, 
plot=FALSE) 
> str(nj.map) 


List of 4 
S & : num [1:774] -75 -74.9 -74.9 -74.7 -74.7 ... 
S y : aum. LSTA 39.5. 33.6. 328.6 33.7 28.7 wn 
$ range: num [1:4] -75.6 -73.9 38.9 41.4 
$ names: chr [1:21] "new jersey,atlantic" "new jersey, bergen" 


"new jersey,burlington" "new jersey, camden" 
> @oce(*, “GLABE*)= che “nap” 


3) 抽取 出 郡 名 : 


Po Í 


> county names <- sapply(strsplit(nj.mapSnames, 
Function (*) [2] )) 


A) 将 地 图 转换 成 SpatialPolygon : 


> nj.sp <- map2SpatialPolygons(nj.map, IDs = county names, 


proj4string = CRS("+proj=longlat +ellps=WGS84") ) 
> class(nj.sp) 


[1] "SpatialPolygons" 


attr(, "package") 
[1] " sp" 


5) 从 文件 中 创建 一 个 普通 的 数据 框 : 


> nj.dat <- read.csv("nj-county-data.csv") 


6) 创建 行 名 来 匹配 地 图 : 


> rownames(nj.dat) <- nj.datSname 


7) 创建 SpatialPolygonsDataFrame 对 象 : 


> nj.spdf <- SpatialPolygonsDataFrame(nj.sp, nj.dat) 


> class(nj.spdf) 


[1] "SpatialPolygonsDataFrame" 
attr (, "package") 
[1] | 


8) 纵 制 地 图 (如 图 10-6 所 示 ) : 


> # plain plot of the object 
> plot (nj.spdf) 


> # Plot of population: 


> spplot(nj.spdf, "population", main = "Population") 


Population 
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图 10-6 


9) 基于 收入 信息 ， 可 以 对 人 均 收 入 和 家 庭 收 入 中 位 数 做 一 个 比较 (如 图 10-7 所 示 ) : 


> spplot(nj.spdf, 
c("per capita income", "median family income"), 
main = "Incomes") 


Incomes 


120000 


100000 


80000 


60000 


40000 


20000 


工作 原理 
步骤 1 载 入 了 maps、maptools 和 sp 包 。 
步骤 2 使 用 了 maps 包 中 的 Map 遂 数 来 获取 新 泽 西 州 的 郡 县 级 地 图 。 


我 们 可 以 从 maps 包 中 得 到 线 型 或 多 边 形 的 地 图 。 要 基于 数据 值得 到 彩色 的 地 区 (比如 世界 地 图 上 的 国家 或 者 国家 地 图 上 的 
EVE) ， 我 们 需要 用 多 边 形 来 表示 地 区 。 我 们 用 参数 fi 放 =TRUE 选 项 来 得 到 多 边 形 地 图 。 


我 们 首先 将 地 图 转换 成 一 个 SpatialPolygons 对 销 ， 然 后 为 其 添加 非 空间 属性 值 使 它 变 成 一 个 SpatialPolygonsDataFrame 
对 象 。 


每 一 个 SpatialPolygons 对 象 中 的 多 边 形 都 必须 具有 唯一 的 识别 码 。 从 第 二 步 的 输出 中 ， 我们 看 到 地 图 中 的 独立 区 域 (多 边 
形 ， 对 应 着 郡 ) 具有 名 字 ， 比 如 new jersey, atlantic, 


步骤 3 在 每 一 个 地 区 名 上 应 用 strsplit 消 数 ， 从 而 从 地 图 的 地 区 名 中 抽取 出 郡 名 。 我 们 用 这 些 抽取 出 的 郡 名 作为 多 边 形 的 识别 


码 。 为 了 将 空间 数据 与 普通 的 数据 框 结合 起 来 ， 多 边 形 的 识别 码 会 与 普通 数据 框 的 行 名 进行 配对 。 这 融 是 为 什么 我 们 需要 为 多 边 
FA FRB. 


在 步骤 4 中 ，maptools 包 中 的 map2SspatialPolygons 国 数 被 用 来 从 地 图 nmj.map 中 生成 一 个 SpatialPolygons 类 的 对 象 
nj.sp。 这 个 函数 使 用 所 提供 的 参数 1Ds 来 为 输出 SpatialPolygons 对 象 中 的 多 边 形 命名 。 如 果 参 数 |Ds 的 长 度 和 多 边 形 的 数量 不 相 
等 ， 则 函数 会 生成 一 个 错误 。 此 时 ， 我 们 有 一 个 不 他 任何 非 空间 属性 的 空间 对 象 。 地 图 文件 有 多 种 不 同 格式 的 地 理 空间 坐标 信 
息 。 参 数 proj4string 通 过 创建 一 个 坐标 参考 系 (CRS) 对 象 来 指明 坐标 信息 的 类 型 。 在 当前 的 例子 中 ， 我 们 指明 了 所 使 用 的 坐标 
用 经 纬度 来 表示 ， 并 且 使 用 的 标准 为 世界 大 地 测量 系统 1984 (WGS84) 。 根 据 地 图 上 的 坐标 ， 也 可 能 需要 创建 其 他 CRS 对 象 。 


在 步骤 595 中， 我 们 从 一 个 文件 读 取 了 新 泽 西 州 各 个 郡 的 数据 并 创建 了 一 个 普通 数据 框 mj.dat。 这 个 数据 框 没 有 空间 属性 。 我 
们 从 这 个 数据 框 中 添加 属性 列 SpatialPolygons nj.sp 来 创建 一 个 SpatialPolygonsDataFrame 对 象 。 


在 步骤 6 中 ， 数 据 框 中 的 行 名 被 赋值 为 郡 名 。 后 面 我 们 会 知道 这 样 做 的 原因 。 


在 步 又 7 中 ，SpatialPolygonsDataFrame 消 数 被 用 来 将 空间 信息 和 非 空间 信息 合并 a 到 一 个 单独 的 
SpatialPolygonsDataFrame 对 象 中 。 这 个 函数 使 用 了 SpatialPolygons 类 的 对 象 nj.sp 和 nj.dat 数 据 框 。 它 通过 配对 数据 框 中 的 
行 名 和 SpatialPolygon 对 象 中 的 多 边 形 识别 码 来 匹配 这 两 个 对 象 。 这 就 是 为 什么 我 们 在 第 6 步 中 将 郡 名 赋值 给 行 名 ， 以 及 为 什么 
在 步骤 3 中 生成 郡 名 的 原因 。 此 时 我 们 有 一 个 SpatialPointsDataFrame 类 的 对 象 nj.spdf， 其 包含 了 空间 和 非 空 间 的 信息 。 


在 步骤 8 中 我 们 用 plot 函 数 绘制 了 SpatialPointsDataFrame 对 象 。 这 幅 图 只 显示 空间 信息 。 


在 步骤 9 中 ， 我 们 使 用 了 spplot 函 数 来 绘制 每 一 个 郡 的 数据 ， 并 基于 每 一 个 郡 的 人 口 数量 为 它们 上 色 。 步 又 9 的 最 后 一 步 显 
示 出 spplot 是 基于 lattice 包 的 。 


10.9 ”为 已 有 的 空间 数据 框 乏 加 要 量 


本 方法 展示 了 如 何 为 空间 数据 框 对 象 添 加 变量 。 其 中 一 种 方法 (参考 10.8 节 内 容 ) 会 移 创 建 所 有 需要 的 变量 ， 而 后 在 创建 空 
间 数 据 框 。 然 而 这 样 并 不 总 是 可 行 的 。 本 方法 将 展示 如 何 为 一 个 已 有 的 空间 数据 框 对 象 添加 非 空间 变量 。 
准备 束 绪 


安装 sp、maps 和 maptools 包 。 下 载 数据 文件 Nj-county-data.csv 并 将 其 放置 于 你 的 R 工 作 目 录 中 。 


要 为 一 个 已 有 的 空间 数据 框 添加 变量 ， 请 遵循 如 下 步骤 : 


1) 遵循 如 下 步骤 (8410.87) : 


library (maps) 
library (maptools) 
nj.map <- map("county", "new jersey", fill=T, plot=FALSE) 


V VV V 


county names <- sapply (strsplit (nj.map$names, ","), 
function (x) x [2] ) 

> nj.sp <- map2SpatialPolygons(nj.map, IDs = county names, 

proj4string = CRS("+proj=longlat +ellps=WGS84") ) 7 

> nj.dat <- read.csv("nj-county-data.csv") 

> rownames(nj.dat) <- nj.datSname 

> nj.spdf <- SpatialPolygonsDataFrame(nj.sp, nj.dat) 


2) 计算 每 个 郡 的 人 口 密 度 : 


> pop density <- 
nj .spdf@data$population/nj.spdf@dataSarea sq mi 


3) 为 nj.spdf 添 加 变量 : 


> nj.spdf <- spCbind(nj.spdf, pop density) 
> names (nj.spdf@data) 


[1] "name" "per capita income" 
[3] "median household income" "median family income" 
[5] "population" "no households" 

[7] "area sq mi" "pop density" 


4) 绘制 数据 (如 图 10-8 所 示 ) : 


> spplot(nj.spdf, "pop density") 


工作 原理 
步骤 1 通过 重复 了 10.8 节 中 的 代码 来 创建 一 个 SpatialPointsDataFrame 对 象 。 它 包含 了 新 泽 西 州 中 的 郡 县 级 数据 。 
在 步骤 2 中 通过 变量 访问 了 潜在 的 数据 框 nj.spdf@data 并 基于 population 和 area_sq_mi 变 量 计算 了 人 口 密度 . 
在 步骤 3 中 使 用 了 maptools 包 中 的 spCbind 方 法 来 添加 新 变量 到 Spatialpoints-DataFrame 类 的 对 象 mj.spdf 中 。 


步骤 4 中 绘制 出 了 这 个 新 的 变量 。 
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第 11 草 ”友好 协作 一 一 连接 到 其 他 系统 


11.1 引言 


R 是 一 个 开源 产品 ， 因 此 其 功能 一 直 在 扩展 。R 众 多 的 统计 包 和 其 强大 的 可 视 化 功能 使 它 十 分 有 用 。 当 使 用 其 他 环境 (比如 
Java，C++，Python 和 Excel) 编写 的 程序 需要 使 用 R 独 特 的 功能 时 ， 我 们 需要 将 它们 与 R 平 滑 地 整合 在 一 起 。 在 本 章 中 我 们 将 
讨论 通过 Java 和 Excel 使 用 R， 并 从 数据 库 中 读 取 数 据 。 


这 个 [Java 包 使 我 们 能 够 在 R 中 通过 Java 原 生 接 口 (UNI) 创建 和 连接 Java 对 象 。Java-R 接 口 (JRI) 和 Rserve 包 使 我 们 能 完成 
相反 的 事情 一 在 Java 程 序 中 调用 R。 我 们 也 会 讨论 用 R 直 接 操 作 Excel 文 件 的 方法 。 


第 11 草 ”友好 协作 一 一 连接 到 其 他 系统 


11.1 5/5 


R 是 一 个 开源 产品 ， 因 此 其 功能 一 直 在 扩展 。R 众 多 的 统计 包 和 其 强大 的 可 视 化 功能 使 它 十 分 有 用 。 当 使 用 其 他 环境 (比如 
Java，C++，Python 和 Excel) 编写 的 程序 需要 使 用 R 独 特 的 功能 时 ， 我 们 需要 将 它们 与 R 平 滑 地 整合 在 一 起 。 在 本 章 中 我 们 将 
讨论 通过 Java 和 Excel 使 用 R， 并 从 数据 库 中 读 取 数据 。 


这 个 rJava 包 使 我 们 能 够 在 R 中 通过 Java 原 生 接 口 UNI) 创建 和 连接 Java 对 象 。Java-R 接 口 (JRI) 和 Rserve 包 使 我 们 能 完成 
相反 的 事情 一 一 在 Java 程 序 中 调用 R。 我 们 也 会 讨论 用 R 直 接 操作 Excel 文 件 的 方法 。 


11.2 在 R 中 使 用 Java 对 象 


有 了 时 我 们 用 Java 完 成 一 个 程序 中 的 一 部 分 ， 并 需要 用 R 访 问 它 们 。 这 个 rJava 包 束 可 以 让 我 们 直接 在 R 中 连接 Java 对 象 。 
准备 束 绪 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 它们 放置 在 你 的 R 工 作 目 录 中 : 


1) 在 你 的 R 工 作 目 录 中 创建 一 个 名 为 javasamples 的 文件 夹 并 将 所 有 后 缀 为 java 或 者 .class 的 文件 移动 到 这 个 文件 夹 中 。 


2) FRinstall.packages ("lava") 命令 安装 rJava。 
3) 用 library (lava) 命令 载 入 包 。 


4) 要 让 mava 在 你 的 环境 中 正音 工作 ，JDK 版 本 必须 跟 下 面 完 全 一 致 。 我 们 会 解释 如 何在 Mac OS X 系 统 中 让 它们 保持 一 


a) JDK 环 境 版 本 : 在 你 的 命令 行 中 执行 java-version 来 获取 已 安 濠 的 Java 版 本 。 你 将 会 使 用 这 个 版 本 创建 jar 文件 或 者 编译 


Java 程 序 。 


b) R 中 的 JDK 版 本 : 当 你 安 闻 好 并 载 入 Java 包 之 后 ， 请 检查 R 环 境 中 的 Java 虚 拟 化 JVM) 版 本 。 我 们 在 上 一 步 中 执行 这 


个 命令 来 检查 。 这 应 该 与 你 用 java-version 所 得 到 的 结果 一 致 。 
5) 如 果 你 使 用 Mac OS X 并 发 现 它们 的 版 本 不 一 致 ， 请 参考 下 面 步 骤 从 源 代 码 中 安装 Java 的 最 新 版 本 : 


a) 从 http://www.rforge.net/rJava/files/ 上 面 下 载 rJava 最 新 版 本 的 源 文 件 rJava 0.9-9.tar.gz， 对 于 rJava 的 每 一 个 新 版 
本 ， 其 文件 名 会 不 一 样 : 


sudo R CMD javareconf 


b) 在 你 的 shell 配 置 文 件 中 添加 下 列 行 (bash 的 配置 文件 在 .bash_profile，csh 的 配置 文件 在 .profile， 等 等 ) ， 请 确保 按照 
你 的 环境 修改 下 面 这 个 目录 : 


export JAVA HOME="/Library/Java/JavaVirtualMachines/ 
jdk1.8.0 25.jdk/Contents/Home/ 


export LD LIBRARY PATH=SJAVA HOME/jre/lib/server 
export MAKEFLAGS="LDFLAGS=-W1,-rpath SJAVA HOME/1lib/server" 


c) 关闭 终端 窗口 并 重新 打开 ， 这 样 可 以 使 配置 文件 生效 。 
d) 安装 下 载 的 Java 包 ， 确 保修 改 这 个 文件 名 : 
sudo R CMD INSTALL rJava_0.9-7.tar.gz 
e) 天 闭 R 吏 Rstudio， 并 从 同一 个 终端 窗口 中 通过 执行 售 令 open-a R 或 者 open-a RStudio 来 重新 打开 它 。 
f) 使 用 library (ava) 重新 载 入 库 。 
9) 再 次 通过 第 一 步 检查 JVM 版 本 。 


6) Mhttp://www.rforge.net/JRI/files/ 下载 内 ljar、REngine.jar 和 JRIEngine.jar 三 个 文件 ; 
从 http://www.rforge.net/Rserve/files/ 下 载 RserveEngine.jar。 将 这 四 个 文件 放置 在 你 的 R 工 作 目 录 中 的 lib 文 件 夹 下 。 


7) 你 可 以 用 预先 提供 的 类 文件 或 者 编译 Java 源 代码 。 这 些 类 文件 由 JDK 1.8.0 25 所 创建 。 如 果 你 的 JDK 版 本 不 是 这 个 ， 那 
么 按照 下 一 步 来 编译 所 有 的 Java 程 序 。 


8) 若 要 编译 下 载 好 的 Java 程 序 ， 进 入 到 javasamples 文 件 夹 中 并 执行 命令 javac- 
cp.:http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15621/OEBPS/Text/../lib/**java， 然 后 你 就 应 该 能 看 到 与 下 载 好 的 
java 程序 所 对 应 的 后 缀 是 class 的 文件 。 


要 怎么 做 
要 在 R 中 使 用 java 对象， 请 遵循 以 下 步 又: 
1) 从 R 中 启动 JVM ， 检 查 Java 版 本 ， 并 设 定好 classpath : 
i 
> .jcall("java/lang/System", "S", "getProperty", "java.runtime. 


version") 
[1] “1-820 25-b17" 


> .jaddClassPath (getwd() ) 


> .jclassPath() 


[1] "/Library/Frameworks/R.framework/Versions/3.1/Resources/ 
library/rdava/java" 


[2] "/Users/sv/book/Chapter1l1" => my working directory 
2) 从 R 中 进行 这 些 Java 操 作 : 

> s <- .jnew("java/lang/String", "Hello World!") 

> print (s) 


[1] "Java-Object{Hello World!}" 


> .jstrVal (s) 
[1] "Hello World!" 


> .jcall(s,"S","toLowerCase") 
[1] "hello world!" 


w .jGaLL (Ss, AS" ,“PeplaceAlt,“Horia® MET] 
[1] "Hello SV!" 


3) 进行 Java 同 量 操作 : 


> javaVector <- .jnew("java/util/Vector") 
> months <- month.abb 


> sapply(months, javaVectorsadd) 
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 
TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE 


> javaVectorssize() 
Fil 22 


> javaVectorStoString () 


[1] "({Jan, Feb, Mar, Apr, May, Jun, Jul, Aug, Sep, Oct, Nov, Dec]" 


A) 进行 Java 数 组 操作 : 


> monthsArray <- .jarray(month.abb) 
> yearsArray <- .jarray(as.numeric(2010:2015) ) 
> calArray <- .jarray(list (monthsArray,yearsArray) ) 


> print (monthsArray) 


[1] "Java-Array-Object [Ljava/lang/String;: [Ljava.lang. 
String;@1ff4689e" 


> .jevalArray (monthsArray) 


[ Ji ] i Jan " TI Feb " i Mar IT W Apr " " May " " Jun " " Jul " "Aug " " Sep " " Oct W 
" Nov W "Dec i 


> print(l <- .jevalArray(calArray) ) 
[ [1]] 


[1] "Java-Object{ [Ljava.lang.String;@30f7f540}" 


[[2] ] 
[1] "Java-Object { [D@670655dd}" 


> lapply(l, .jevalArray) 
[[1]] 


[1] W Jan " W Feb " " Mar" "Apr " "May " " Jun " " Jul W "Aug W " Sep W " Oct " 
" Nov " " Dec i 


([2]] 
Ll) Z010 ZO 2012 Z0I3 2014 2085 


5) 插入 简单 的 Java 类 HelloWorld: 


> hw <- .jnew("javasamples.HelloWorld") 
> hello <- .jcall(hw,"S", "getString") 
> hello 


[1] "Hello World" 


6) 插入 简单 的 可 接受 参数 万 法 的 Java 类 Greeting: 


> greet <- .jnew("javasamples.Greeting") 
> print (greet) 
[1] "Java-Object{Hi World!}" 


> g <- .jcall(greet, "S", "getString", "Shanthi") 
> print (g) 


[1] "Hello Shanthi" 


> .jstrVal (g) 
[1] "Hello Shanthi" 


工作 原理 


消 数 .jinit0 初 始 化 了 一 个 VM， 这 一 步 需要 在 调用 任何 rJava 遂 数 之 前 执行 。 如 果 你 在 这 一 步 遇 到 了 错误 ,通常 是 由 于 内 存 
不 足 。 天 闭 不 想 要 的 进程 和 程序 ， 包 括 R， 然 后 骨 试 一 次 。 


要 让 上 rJava 正 常 工 作 ， RIBBASIMe PAVavaheAtravaheA—V. Fei] 
用 .jcall ("java/lang/System", "S", "getProperty", "java.runtime.version") 命令 来 得 到 R 环 境 中 的 Java 版 本 。 


在 确保 Java 版 本 是 一 致 的 之 后 ， 我 们 首先 需要 做 的 是 设 定 classpath 来 连接 任何 Java 对 象 。 我 们 通过 .jaddClassPath 来 完 
成 。 我 们 传递 了 R 工 作 目 录 给 它 ， 因 为 我 们 的 Java 类 在 这 里 面 。 然 而 如 果 你 的 Java 类 文件 处 于 其 他 位 置 或 者 你 创建 了 一 个 .jar 文 
件 ， 那 么 用 新 的 位 置 来 蔡 换 它 。 一 旦 通过 .jaddClassPath 设 定好 了 classpath， 你 就 可 以 通过 执行 .jclassPath() 来 查看 它 。 


步骤 2 展示 了 字符 串 操 作 。 我 们 用 .jnew 来 声明 任何 Java 对 象 。 其 类 名 是 用 "/" 分 隔 的 完整 的 类 名 。 因 此 ， 我 们 用 
java/lang/string 而 不 是 java.lang.string 来 引用 字符 串 类 。 


国 数 jstrVal 将 tostring() 的 求 值 操作 作用 于 任何 Java 对 象 上 。 在 我 们 的 例子 中 ， 我 们 得 到 了 字符 串 s 的 值 。 


我 们 使 用 ,jcall 来 对 一 个 Java 对 象 执行 任何 方法 。 在 jcall (s, "S", "toLowerCase") 中 ， 我 们 人 在 字符 串 对 象 * 上 调用 了 
toLowerCase 万 法 。 调 用 中 的 "S" 指 明了 这 个 万 法 的 返回 值 类 型 。 在 jcall (s, "S", “replaceAl "World", "SV") 中 ， 我 们 调 
用 了 replaceAl| 方 法 并 返回 一 个 新 的 蔡 换 后 的 字符 串 。 


我 们 在 表 11-1 中 列 出 了 可 能 的 返回 值 类 型 : 
表 11-1 


: 


L<class> <class> 型 的 Java 对 象 例如 : Ljava/awt/Component 


S java.lang.String S Œ Ljava/long/ object 的 一 个 特例 


[<type> <type> 型 对 象 的 数组 [D 是 双 精 度数 组 


步骤 3 展示 了 从 R 中 进行 Java 的 同 量 操作 。 我 们 和 首先 用 javaVector< -jnew ("java/util/Vector") 创建 了 一 个 Java 回 量 对 
象 。 然 后 用 方法 add 为 这 个 向 量 添加 元 素 。 在 前 面 的 步骤 2 中 ， 我 们 用 :jjcall 函 数 来 调用 对 象 的 方法 ， 但 现在 我 们 有 一 条 捷径 ， 这 
非常 类 似 于 我 们 在 Java 中 做 的 那样 ， 要 在 Java 中 调用 一 个 方法 ， 我 们 使 用 … 符号 ， 而 在 R 中 我 们 使 用 $ 符 号 。 因 此 ， 我 们 用 
javaVector$add 来 调用 对 象 的 add 方 法 。 


步 又 4 展示 了 Java 数 组 操作 。 两 个 关键 函数 是 创建 数组 对 象 的 .jarray 函 数 和 返回 数组 对 象 的 .jevalArray 遂 数 。 我 们 通 
过 .jarray 函 数 创建 了 三 个 数组 对 象 monthsArray、yearsArray 和 calArray。 当 我 们 用 print (monthsArray) 打印 出 数组 对 象 
时 ， 我 们 得 到 了 每 一 个 数组 对 象 的 对 象 类 型 ， 然 而 当 我 们 执行 .jevalArray (monthsArray) 时 ， 我 们 得 到 了 整个 数组 的 内 容 。 
calArray 对 象 是 两 个 Java 数 组 对 象 的 列表 ， 在 这 一 步 我 们 也 会 看 到 如 何 抽取 数组 成 员 。 


步骤 5 展示 了 如 何 实例 化 一 个 目 定 义 的 Java 对 象 并 调用 它 的 方法 。 如 果 你 还 没有 编译 过 Java 代 码 ， 那 么 请 参考 前 面 “准备 就 
绪 ” 中 的 指导 信息 。 我 们 用 .jnew 来 实例 化 一 个 名 为 hw 的 HelloWorld 对 象 。 我 们 始终 将 类 名 和 包 名 一 起 传递 给 .jnew 函 数 。 一 旦 
这 个 对 象 被 创建 出 来 ， 我 们 就 可 以 调用 其 上 的 万 法 。 这 里 举 了 一 个 天 于 调用 getString 方 法 的 例子 。 


步骤 6 展示 了 另 一 个 自 定 义 对 象 Greeting 的 实例 化 以 及 方法 的 调用 。 方 法 的 参数 要 跟 企 方法 的 名 字 后 面 ， 
如 .jcall (greet, "S", "getString", "Shanthi") 。 这 里 的 字符 串 "Shanthi" 就 是 要 传递 给 getstring 方 法 的 参数 。 


BZW 
以 下 是 其 他 一 些 有 用 的 命令 ， 用 于 从 R 环 境 中 调用 Java 对 象 。 
1. 检 查 JVM 属 性 


当 在 R 控 制 台中 执行 Java 命 令 而 过 到 问题 时 ， 你 也 许 会 想 要 检查 Java 虚 拟 机 的 属性 : 


> Jvm = .jnew("java.lang.System") 
> Jvm.props = jvm$SgetProperties () $toString() 
> jvm.props <- strsplit(gsub("\\{(.*)}", "\\1", jvm.props), ", 
wy Leaks 
> Jvm.props 
[1] "java.runtime.name=Java(TM) SE Runtime Environment" 


[2] "sun.boot.library.path=/System/Library/Java/ 
JavaVirtualMachines/1.6.0.jdk/Contents/Libraries" 


[3] "java.vm.version=20.65-b04-462" 
[4] "awt.nativeDoubleBuffering=true" 
[5] "gopherProxySet=false" 

[6] "mrj.build=11M4609" 


[7] "java.vm.vendor=Apple Inc." 
[8] "java.vendor.url=http://www.apple.com/" 
[9] "path.separator=:" 
[10] "java.vm.name=Java HotSpot (TM) 64-Bit Server VM" 


2. 显 示 可 用 的 万 法 


以 下 命令 对 于 获取 所 有 可 用 方法 的 列表 ， 或 者 方法 特征 非常 有 用 : 


> .jmethods(s,"trim") 


[1] "public java.lang.String java.lang.String.trim()" 


前 述 命令 显示 String 对 象 上 可 以 调用 trim 方 法 并 返回 一 个 String 对 象 : 


> # To get the list of available methods for an object 

> .jmethods (s) 
[1] "public boolean java.lang.String.equals (java.lang.Object) " 
[2] "public java.lang.String java.lang.String.toString()" 
[3] "public int java.lang.String. hashCode()" 
[4] "public int java.lang.String. compareTo (java.lang.String) " 
[5] "public int java.lang.String. compareTo (java.lang.Object) " 
[6] "public int java.lang.String. indexOf (int)" 


11.3 MJava-AFQRIV HRA 


允许 你 在 Java 应 用 程序 内 部 用 单独 的 线程 调用 R 命 令 。 欠 | 将 R 库 载 入 到 Java 中 ， 因 此 为 R 国 数 提 供 了 一 个 Java 的 APl。 
准备 束 绪 


确保 完成 11.2 节 的 所 有 命令 。 


要 从 Java 中 使 用 JRI 调 用 R 函 数 ， 请 遵循 以 下 步骤 : 
1) 设 定 环境 变量 R_HOME 到 R 的 安装 目录 ， 并 将 R 的 bin 目 录 添 加 到 环境 变量 PATH 中 。 


2) 打开 一 个 新 的 终端 窗口 (在 OS X 或 者 Linux 系 统 中 ) 或 者 打开 命令 提示 窗口 (在 Windows 系 统 中 ) 。 确 保 根据 你 的 环境 
来 修改 这 些 值 。 下 述 命 令 将 帮助 你 在 OS X 和 Linux 系 统 上 设置 环境 变量 。 确 保修 改 你 的 目录 位 置 : 


export R HOME=/Library/Frameworks/R.framework/Resources 


export 
PATH=$PATH: /Library/Frameworks/R.framework/Resources/bin/ 


3) 从 javasamples 目 录 中 执行 下 面 的 Java 命 令 。 请 根据 你 自己 的 环境 来 修改 这 些 值 。 同 时 请 注意 在 -D 和 java.library.path 中 
间 没 有 空格 : 
cd javasamples 
java -Djava.library.path=/Library/Frameworks/R.framework/ 


Resources/library/rJava/jri -cp ..:../lib/* javasamples. 
SimpleJRIStat 


1520:15 


工作 原理 


在 步骤 1 中 ， 我 们 设 定 了 环境 变量 R_HOME 到 R 的 安 委 目 录 并 将 Rb 的 bin 目 录 添 加 到 环境 变量 PATH 中 。 如 果 这 些 环境 变量 没 
ARRE, PSAN TIRES: 
"R HOME is not set. Please set all required environment variables 


before running this program. 
Unable to start R." 


在 步骤 2 中 ， 我 们 运行 了 Java 程 序 SimpleJRIStat。 打 开 SimpleJRIStat.java 的 代码 : 
- 在 主 方法 中 ， 我 们 首先 创建 了 一 个 Rengine 的 实例 来 启动 一 个 R 会 话 。 
我 们 用 方法 waitForR 来 检查 并 确保 这 个 R 会 话 处 于 激活 状态 。 


- 我 们 在 Java 中 创建 了 一 个 双 精 度数 组 并 将 其 赋值 给 名 为 "values" 的 变量 ， 这 个 values 变 量 存 在 于 R 环 境 而 不 是 Java 环 境 中 。 


- Rengine 的 eval 方 法 等 价 于 在 R 控 制 台 中 执行 命令 。 方 法 eval 的 输出 是 一 个 org.tosuda.JRI.REXP 对 象 。 根 据 REXP 内 容 的 不 同 ， 
方法 asStting0、asDouble0 可 以 被 执行 并 抽取 出 了 R 所 返回 的 结果 。 在 我 们 的 Java 代 码 中 ， 我 们 用 R 函 数 mean 来 计算 数组 的 均值 并 赋值 


给 一 个 JavaREXP 变 量 mean。 
:我们 然后 使 用 asDouble 方 法 来 获取 mean 的 值 并 打印 出 来 。 
. 最 后 ， 我 们 通过 调用 end 方 法 来 关闭 这 个 R 会 话 。 


要 执行 Java 代 码 ， 需 要 添加 -Djava.library.path 切 换 (注意 -D 和 java.library.path 中 间 没 有 空格 ) 并 指向 Java 位 置 。 要 从 
Java 中 使 用 REngine， 我 们 将 适合 的 JAR 文 件 添加 到 classpath。 因 为 我 们 从 javasamples 文 件 夹 中 执行 命令 ,我 们 将 
http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15621/OEBPS/Text/.. 添 加 a 到 classpath 来 措 向 父 目录 ， 那 里 存放 着 lib 文 
件 夹 下 的 我 们 的 库 文件 。 


从 Java 程 序 中 调用 R 画 图 是 可 能 的 ， 让 我 们 来 了 解 SimplePlot.java: 
“ 在 主 方法 中 ， 首 先 我 们 创建 了 一 个 Rengine 实 例 来 检查 R 会 话 是 否 创建 成 功 。 


- 我 们 可 以 通过 所 执行 的 命令 中 的 最 后 一 个 参数 来 设 定 R 的 工作 目录 ， 也 可 以 将 当期 执行 的 Java 命 令 所 在 的 用 户 目 录 设 定 为 R 
的 工作 目录 。 表 达 式 atgs.length==0 显 示 在 代码 的 执行 时 没有 传递 任何 参数 ， 因 此 我 们 就 用 当期 用 户 目录 作为 R 的 工作 目录 。 


- 我 们 用 tead.csv 有 函数 将 文件 读 入 R 中 并 加 载 给 R 中 的 变量 auto。 
-我们 用 nrow 函 数 获取 auto 的 行 数 并 打印 出 来 。 

我 们 将 png 设 定 为 绘图 设备 并 创建 一 个 名 为 auto.png 的 文件 。 
- RANA plot: žk RF Fl weight vs mpg 的 图 。 

` 我 们 关闭 了 这 个 绘图 设备 来 刷新 文件 内 容 。 

最 后 ， 关 闭 这 个 R 会 话 。 


要 抽取 这 个 Java 人 代码， 使 用 如 下 命令 。 请 按照 你 人 存放 auto-mpg.csv 文 件 的 位 置 来 修改 国 数 调用 时 的 参数 以 便 对 应 R 工 作 目 


SR: 
java -Djava.library.path=/Library/Frameworks/R.framework/Resources/ 
library/rJdava/jri/ -cp ..:../lib/* javasamples.SimplePlot /Users/sv/ 
book/Chapter1l1 


11.4 从 Java 中 用 Rserve 调 用 R 国 数 


Rserve 包 是 一 个 可 以 接受 客户 新 请 求 的 TCP/IP 服 务 。RServe 人 允许 通 过 其 他 手段 访问 R。 每 一 个 连接 都 有 独立 的 工作 区 和 工 
作 目 录 。 


iE RS 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 它们 放置 在 你 的 R 工 作 目录 中 : 
创建 javasatmples 文 件 夹 并 将 所 有 后 缓 为 Java 和 class 的 文件 移动 到 你 的 工作 目录 下 的 这 个 文件 天 中 。 
.用 install.packages ('Rserve') 安装 Rserve。 
ee] RAB 


- 从 http://www.rforge.net/JRI/files/ 上 下 载 JRI.jatr、REneine.jatr 和 JRIEngine.jar 这 三 个 jar 包 ， 
从 http://www.rforge.net/Rserve/files/ 上 下 载 Rserve-Engine.jar。 将 这 四 个 JAR 文 件 复 制 到 你 的 R 工 作 目 录 中 的 lib 文 件 夹 中 。 


. 可 以 使 用 已 提供 的 类 文件 或 者 通过 Java 代 码 来 编译 。 这 些 类 文件 是 用 JDK 1.8.0_25 创 建 的 。 如 果 你 的 JDK 版 本 不 同 。 请 遵照 
下 一 步 来 编译 所 有 的 Java 程 序 


- 要 编译 已 下 载 的 Java 程 序 ， 进 入 到 javasamples 文 件 夹 中 并 执行 javac-cp.:http://www.hzcoutfse.comytesoutce/teadBook? 
path=/openresources/teach_ebook/uncomptressed/15621/OEBPS/Text/../lib/**java。 你 应 该 能 看 到 与 每 一 个 下 载 的 Java 程 序 所 对 应 


的 以 class 为 后 级 的 类 文件 。 
要 怎么 做 
要 通过 Rserve 从 Java 中 调用 R 函 数 ， 请 遵循 如 下 步 又: 


1) 局 动 Rserve 服 务 来 接受 客户 新 的 连接 。 


> Rserve (args="--no-save") - On Mac and Linux 
> Rserve() - on windows 
Rserv started in daemon mode. 


2) 执行 Java 程 序 ， 从 R 中 绘制 ggplot 并 显示 图 像 。 参 考 你 存放 auto-mpg.csv 文 件 的 R 工 作 目 录 来 修改 调用 时 的 参数 : 


java -cp ..:../lib/* javasamples.SimpleGGPlot /Users/sv/book/ 
Chapter1l 
工作 原理 


在 步骤 1 中 ， 我 们 从 R 中 局 动 了 Rserve 服 务 。 如 果 这 项 服务 已 经 在 运行 了 ， 你 会 看 到 这 样 的 消息 : ##>SOCK ERROR: bind 


error#48 (address already in use) 。 
你 可 以 从 系统 层面 上 停止 当前 的 RServe 进 程 。 我 们 也 可 以 执行 R CMD Rserve 命 令 来 启动 一 个 Rserve 守 护 进 程 。 


Rserve 可 以 在 本 地 运行 或 者 在 远程 服务 器 上 运行 以 便 多 用 户 访 问 。 要 访问 一 个 远程 的 Rserve 服 务 器 ， 需 要 在 创建 
RConnection 时 提供 服务 器 的 主机 名 或 者 IP 地 址 。 


在 步骤 2 中 ， 我 们 运行 了 Java 程 序 SimpleGGPlot。 要 从 Java 中 连接 到 RServe， 我 们 将 适当 的 jars 添 加 a 到 classpath 中 。 因 为 
我 们 是 从 javasamples 文 件 夹 中 执行 命令 的 ， 我 们 在 classpath 中 添加 了 http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/15621/OEBPS/Text/.. 来 指 代 父 文件 来， 那里 存放 着 我 们 的 库 文件 夹 


jib。 我 们 也 将 auto-mpg.csv 所 在 的 文件 夹 传递 给 俏 令 ， 因 为 这 个 文件 夹 是 我 们 的 R 工 作 目 录 。 


我 们 现在 来 解释 SimpleGGPlot.java 中 的 代码 : 
` 我 们 在 主 方法 中 首先 创建 了 一 个 RConnection 对 和 象 。 
. 我 们 在 RConnection 对 象 上 调用 了 eval 方 法 来 执行 命令 。 
- 这 个 RConnection 对 象 抛 出 了 REnpgineException， 因 此 我 们 添加 了 try 和 catch 代 码 块 来 捕捉 异常 。 
-我们 从 Java 中 计算 下 列 有 函数 的 取 值 : 
: 我 们 首先 载 入 了 R 包 gpplot2。 
:我们 用 传递 过 来 的 参数 在 R 中 设 定 了 工作 目录 。 如 果 没 有 传递 参数 则 会 使 用 当前 用 户 目录 作为 R 工 作 目 录 。 
我 们 用 read.csv 读 取 了 auto-mpg.csv 文 件 的 内 容 。 
` 我 们 打开 了 一 个 图 形 设 备 以 便 保存 图 像 。 然 后 用 geplot 对 weight vs mpbg 画 图 。 
- 我 们 关闭 了 图 像 设备 以 刷新 文件 内 容 。 
` 我 们 接着 读 取 了 文件 中 的 二 进 制 内 容 。 


` 方法 eval 或 parseAndEval 的 输出 是 org.rosuda.REngine.REXP 对 加， 并 且 按 照 REXP 内 容 的 不 同 ， 可 以 执行 asString()、 


asBytesO 来 抽取 有 的 返回 结果 。 在 我 们 的 Java 代 码 中 ， 我 们 用 asBytes0 来 读 取 REXP 对 象 xp 中 的 二 进 制 内 容 。 


. 最 后 ， 我 们 在 一 个 JFrame 窗 口 中 创建 了 图 11-1 所 示 的 图 像 。 
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在 用 户 关闭 了 JErame 图 像 窗口 之 后 我 们 关闭 了 连接 。 
如 果 RServe 没 有 运行 ， 你 会 看 到 这 样 一 条 消息 : 


Exception in thread "main" org.rosuda.REngine.Rserve. 
RserveException: Cannot connect: Connection refused". 


. 在 11.3 节 中 ， 我 们 展示 了 如 何 从 Java 中 执行 R 函 数 并 获取 其 返回 值 ， 这 里 我 们 展示 了 如 何 从 R 中 获取 数组 并 载 入 到 Java 中 。 
从 R 中 取 回 一 个 数组 


下 列 步 又 可 帮 你 从 R 中 取 回 一 个 数组 : 


- 打开 Java 程 序 SimpleRservStat.java: 
- 我 们 实例 化 了 一 个 新 的 RConnection 对 象 。 
. 我 们 将 一 个 双 精 度 Java 数 组 赋值 给 一 个 R 变 量 。 
- 我 们 在 R 中 计算 这 个 数组 的 均值 并 在 Java 中 打印 出 来 。 
- 我 们 接着 计算 了 它 的 值 域 ， 由 于 trange 是 一 个 数组 ， 我 们 在 方法 返回 的 REXP 对 象 上 调用 了 asDoubles0 方法。 
然后， 我们 将 双 精 度数 组 转化 成 字符 串 并 打印 出 来 。 
- 从 javasamples 目 录 中 执行 下 列 Java 代 码 一 一 确保 将 命令 的 最 后 一 部 分 替换 成 你 自己 的 R 工 作 目 录 : 


java -cp ..:../lib/* javasamples.SimpleRservStat /Users/sv/book/ 
Chapter11 


11.5 ”从 Java 中 执行 R 脚 本 


在 前 面 的 方法 中 ， 我 们 从 Java 内 部 执行 了 R 函 数 。 在 本 方法 中 ， 我 们 要 从 Java 中 执行 R 脚 本 并 将 其 结果 读 取 到 Java 中 以 便 后 
续 操作 。 


ER ZR 


确保 完成 11.2 节 中 的 所 有 步骤 。 同 时 确保 你 的 R 工 作 目录 中 有 auto-mpg.csv 和 corr.R 这 两 个 文件 。 


从 你 的 命令 行 中 执行 这 个 Java 程 序 ， 从 而 通过 一 个 Java 程 序 调用 R 脚 本 。 注 总 修改 命令 的 最 后 一 部 分 来 适应 你 的 R 工 作 目 


录 : 
java -Djava.library.path=/Library/Frameworks/R.framework/Resources/ 
library/rdava/jri/ -cp ..:../lib/* javasamples.InvokeRScript mpg 
weight /Users/sv/book/Chapter11 

工作 原理 


我 们 执行 了 带 有 三 个 参数 的 Java 程 序 InvokeScript。 前 两 个 参数 据 出 了 要 使 用 auto 表 中 的 哪些 列 来 计算 相关 性 ， 可 选 的 第 
三 个 参数 是 用 来 存放 auto-mpg.csv 文 件 和 R 脚 本 的 工作 目录 。 


查看 InvokeScript.java 的 代码 : 
` 在 主 方法 中 ， 我 们 首先 创建 了 一 个 Rengine 实 例 并 检查 了 R 会 话 是 否 被 成 功 创建 。 
:我们 检查 了 是 否 有 至 少 两 个 参数 被 传递 给 Java 程 序 InvokeSctipt， 如 果 没 有 ， 我 们 会 显示 一 条 错误 消息 : 


To execute, please provide 2 variable names from auto-mpg dataset. 


. 如果 参数 数组 的 长 度 afgs.length 等 于 2， 我 们 便 知 道 用 户 没 有 提供 R 工 作 目 录 ， 因 此 我 们 将 用 户 的 当前 目录 作为 工作 目录 并 
在 R 中 设置 好 。 


` 我 们 通过 assign 方 法 从 参数 中 为 两 个 变量 vaf1 和 vat2 赋 值 。 这 些 变 量 是 在 R 环 境 中 创建 的 。 
: 我 们 接着 调用 了 eval 方 法 来 执行 R 脚 本 cott.R。 
.我们 将 结果 存 入 一 个 REXP 对 象 中 。 
:我们 在 REXP 对 象 上 调用 了 asDouble 方 法 来 打印 出 值 。 
. 最 后 关闭 Renpgine 对 象 来 释放 这 个 R 会 话 。 
现在 让 我 们 查看 R 脚 本 corr.R: 
将 auto-mpg:csvy 文 件 的 内 容 载 入 到 有 对象 auto 中 。 


` 执行 函数 cor 计 算 作 为 参数 传递 给 Java 程 序 InvokeSctript 的 两 个 变量 的 相关 性 。 


11.6 ”使 用 xlsx 包 车 接 人 到 Excel 


有 很 多 包 可 以 将 RS 与 Excel 连接 ; 在 本 方法 中 ,我们 讨论 xlsx 包 。 其 他 常见 的 包 是 RExcel 和 XLConnect。 
ERS La 
如 果 你 还 没有 下 载 本 章 的 数据 文件 ， 现 在 去 下 载 并 确保 将 它们 放置 在 你 的 R 工 作 目 录 中 : 
| 用 install.packages ("xlsx") 安装 xlsx 包 。 
| 用 library (xlsx) RAŽ. 


. 读 取 数据 : 


> auto <- read.csv("auto-mpg.csv", stringsAsFactors=FALSE) 


要 通过 xlsx 包 连接 Excel， 请 遵循 如 下 步骤 : 


1) 将 数据 框 保存 成 Excel 工 作 簿 : 


> write.xlsx(auto, file = "auto.xlsx", sheetName = 
"autobase", row.names = FALSE) 


2) 为 auto 数 据 框 新 增 两 列 : 


> autoSkmpg <- autoSmpg * 1.6 


> autoSmpg deviation <- (autoSmpg - 
mean (auto$mpg) ) /auto$mpg 


3) @UExcelkfRe, LOMO. LER. ÍT, ache: 


auto.wb <- createWorkbook () 

sheetl <- createSheet (auto.wb, "autol") 

rows <- createRow(sheetl1, rowIndex=1) 

cell.1 <- createCell (rows, colIndex=1) [[1,1]] 
setCellValue(cell.1, "Hello Auto Data!") 

addDataFrame (auto, sheetl, startRow=3, row.names=FALSE) 


VV V V V V—V 


4) HATRET : 


> cs <- CellStyle(auto.wb) + 

Font (auto.wb, isBold=TRUE, color="red") 
> setCellStyle(cell.1, cs) 
> saveWorkbook (auto.wb, "auto wb.xlsx") 


5) 为 Excel 工 作 秒 添加 一 个 工作 表 : 


wb <- loadWorkbook ("auto wb.xlsx") 

sheet2 <- createSheet (auto.wb, "auto2") 
addDataFrame (auto[,1:9], sheet2, row.names=FALSE) 
saveWorkbook (auto.wb, "auto wb.xlsx") 


VV V V 


6) 为 一 个 工作 表 添 加 一 询 并 保 仓 : 


> wb <- loadWorkbook ("auto wb.xlsx") 
> sheets <- getSheets (wb) 

> sheet <- sheets[[2]] 

> 


addDataFrame (auto[,10:11], sheet, startColumn=10, row. 
names=FALSE) 


> saveWorkbook (wb, "newauto.xlsx") 


7) 从 Excel 工 作 浅 中 读 取 数据 : 


> new.auto <- read.xlsx("newauto.xlsx", sheetIndex=2) 
> head (new. auto) 


> new.auto <- read.xlsx("newauto.xlsx", sheetName="auto2") 


8) 从 Excel 工 作 簿 的 一 个 指定 区 域 中 读 取 数 据 : 


> sub.auto <- read.xlsx("newauto.xlsx", 
sheetName="autobase", rowIndex=1:4, colIndex=1:9 


工作 原理 


在 读 取 和 保存 工作 湾 时 有 很 多 选择 。 我 们 在 这 里 看 一 些 例子 。 


步骤 1 将 auto 数 据 框 保存 到 一 个 新 的 名 为 "autobase" 的 工作 表 中 并 创建 对 应 的 Excel 文 件 。 如 果 我 们 没有 在 命令 中 包含 
row.names=FALSE， 则 行 号 会 显示 在 电子 表格 的 第 一 列 中 。 


步 又 2 为 auto 数 据 框 添加 了 两 列 。 第 一 个 新 列 kmpg 是 每 加 仑 公里 数 ， 第 二 个 新 列 是 天 于 mpg 均 值 的 偏 寿 。 我 们 在 计算 这 两 
列 时 用 到 了 同 量 操作 。 


步骤 3 展示 了 用 下 列 消 数 来 创建 工作 和 水 、 工 作 表 、 行 和 单元 格 : 
- createWorkbook: 这 会 创建 一 个 工作 答对 象 并 返回 对 象 的 索引 。 
-createSheet: 这 会 创建 一 个 工作 表 ， 表 名 通过 参数 传递 进去 。 如 果 没 有 提供 表 名 则 使 用 默认 名 sheetx。 
- createRow: 这 会 在 工作 表 中 创建 一 行 ， 用 fowIndex 来 指定 行 号 。 
- createCell: 这 会 在 给 定 行 的 一 个 指定 的 列 索 引 位 置 创建 一 个 单元 格 。 
- setCellValue: 这 会 对 指定 的 单元 格 赋值 。 


- addDataFrame: 这 会 将 一 个 数据 框 放 入 指定 的 工作 表 中 。 默 认 会 包含 tow.names， 并 且 行 列 序号 从 1 开始 。 然 而 你 可 以 指定 
另外 的 行 索引 和 列 索引 ， 并 作为 参数 传递 。 在 我 们 的 例子 中 ， 我 们 用 startRow=3 因 为 我 们 保留 了 第 一 行 作为 抬头 并 在 其 下 面 保留 
了 一 个 室 白 行 。 我 们 使 用 默认 的 列 号 1。 


步骤 4 显示 了 如 何 为 一 个 单元 格 设置 样式 。 我 们 可 以 在 创建 行 、 列 或 添加 数据 框 的 同时 添加 样式 。 任 何在 Excel 中 可 以 完成 的 
样式 都 可 以 在 R 中 完成 。 这 里 在 我 们 的 例子 中 为 抬头 行 的 单元 格 添加 了 红色 和 加 粗 字体 。 


步骤 ?显示 了 如 何 添加 一 张 表 。 我 们 使 用 addDataFrame 来 添加 一 个 数据 框 。 我 们 再 一 次 使 用 了 row.names=FALsSE 来 排除 
行 号 这 一 列 。 由 于 我 们 没有 指定 startRow， 它 默认 取 值 为 1。 我 们 将 包含 这 两 张 表 的 工作 簿 保存 为 auto_wb.xlsx。 


步骤 6 使 用 addDataFrame 团 数 将 一 个 数据 框 添加 到 工作 表 中 。 我 们 首先 用 loadWorkbook 读 取保 仓 好 的 工作 注 文 件 
auto.xlsx， 并 赋值 给 变量 wb。 人 然后 我 们 调用 getSheets 函 数 来 得 到 这 个 工作 秒 中 的 所 有 工作 表 。 这 个 getSheets 函 数 返 回 一 个 数 
值 ， 我 们 可 以 通过 其 索引 来 得 到 指定 的 表 。 因 此 sheets[[2]] 返 回 这 个 工作 簿 中 的 第 二 个 表 。 


我 们 将 步 又 2 中 创建 的 两 列 添加 到 表 中 ， 最 后 保存 了 这 个 工作 簿 。 


步骤 7 显示 了 如 何 用 read.xlsx 和 直接 从 Excel 文 件 读 取 数 据 。 我 们 可 以 用 sheetindex 或 者 sheetName 来 指定 某 个 表 。 属 性 
sheetlndex 从 1 开始 计数 。 


步骤 8 显示 了 如 何 从 Excel 表 格 的 一 个 指定 区 域 中 载 入 数据 。 属 性 rowlindex 被 设置 成 1: 4， 因 此 我 们 抽取 除了 抬头 行 和 前 三 
个 数据 行 。 


11.7 ”从 关系 型 数据 库 一 一 MySQL 中 读 取 数据 
你 可 以 用 几 种 不 同 的 手段 连接 到 关系 型 数据 库 。 


RODBC 包 提供 了 通过 ODBC (开放 陈 数 据 库 连接 ) 接口 来 访问 绝 大 多 数 天 系 型 数据 库 的 功能 。RJDBC 包 提供 了 通过 JDBC 接 
口 来 访问 数据 库 的 功能 ， 因 此 需要 Java 环 境 。 


还 有 一 些 包 ， 比 如 ROracle、RMySQL 等 ， 可 以 提供 连接 到 特定 的 关系 型 数据 库 的 功能 。 


上 述 各 种 包 的 运行 方式 各 异 ， 也 有 着 不 同 的 要 求 。 你 应 该 测试 并 选择 最 适合 你 的 特定 需求 的 包 。 通 常情 况 下 ，RJDBC 效 率 
较 差 ， 因 此 你 也 许 更 倾向 于 选择 RODBC 或 者 你 的 数据 库 专 属 包 。 人 在 本 方法 中 ， 我 们 摘 述 了 连接 MySQL 数 据 库 的 步骤 。 


ER ZR 
乍 移 创 建 要 使 用 的 数据 框 ， 如 下 : 


> customer <- c("John", "Peter", "Jane") 
> orddt <- as.Date(c('2014-10-1','2014-1-2','2014-7-6') ) 
> ordamt <- c(280, 100.50, 40.25) 


> order <- data.frame (customer, orddt, ordamt) 


$43 22M ySQLERBH CE NB A Customerf ater. 

要 使 用 RODBC 包 : 

1) 下 载 并 安装 与 你 的 操作 系统 对 应 的 MySQL Connector/ODBC, 

2) 在 ODBC 配 置 管理 中 选择 与 你 的 平台 相 适 应 的 正确 驱动 ， 从 而 创建 一 个 名 为 order_dsn 的 DSN。 
3) 在 R 中 执行 install.packages ("RODBC") . 

要 使 用 RJDBC 包 : 

1) 下 载 并 安装 与 你 的 操作 系统 对 应 的 MySQL Connector/J, 

2) 安 六 Java 运 行 库 并 设置 好 环境 变量 JAVA_HOME。 

3) 在 R 中 执行 install.packages ("RJDBC") . 

要 使 用 RMySQL 包 : 

1) 下 载 并 安装 与 你 的 操作 系统 对 应 的 MySQL Connector/J, 

2) 创建 一 个 环境 变量 MYSQL HOME 指向 MySQL 的 安装 文件 夹 。 

3) 仅 针 对 Windows 系 统 : 将 MySQL 安 装 位 置 中 的 lib 目 录 中 的 libmysql.dl 复 制 到 bin 目 录 中 。 


4) 在 R 中 执行 install.packages ("RMySQL") . 


我 们 展示 如 何 通过 之 前 的 每 一 个 包 连 接 到 数据 库 。 
1. 使 用 RODBC 


要 使 用 RODBC 包 来 连接 到 数据 库 ， 请 遵循 如 下 步骤 : 


1) 载 入 RODBC 库 并 创建 一 个 连接 对 象 


> library (RODBC) 
> con <- odbcConnect ("order dsn", uid="user", pwd="pwd") 


2) Fgorderlİ RRT ERREAK: 


> sqlSave(con,order, "orders", append=FALSE) 


3) 从 数据 库 表 中 获取 所 有 orders 信 息 : 


> custData <- sqlQuery (con, "select * from orders") 


4) 关闭 连接 : 


> close(con) 


2. 使 用 RMySQL 
要 使 用 RMySQL 包 来 连接 到 数据 库 ， 请 遵循 如 下 步骤 : 
1) 载 入 RMySQL 库 并 创建 一 个 连接 对 象 : 
> library (RMySQL) 
> con <- dbConnect ("MySQL", dbname="Customer", 


host="127.0.0.1", port=8889, username="root", 
password="root") 


2) 将 order 对 象 保存 在 数据 库 的 一 张 表 中 : 


> dbWriteTable (con, "orders", order) 


3) 从 数据 库 表 中 获取 所 有 orders 信 息 : 

> dbReadTable (con, "Orders") 

> dbGetQuery(con,"select * from orders") 
4) 用 一 个 循环 来 获取 数据 库 表 中 的 所 有 orders 信 息 : 


> rs <- dbSendQuery(con, "select * from orders") 
> while(!dbHasCompleted(rs)) { 
fetch (rs,n=2) 


} 


> dbClearResult (rs) 
> dbDisconnect (con) 
> dbListConnections (dbDriver ("MySQL")) 


3. 使 用 RJDBC 


要 使 用 RJDBC 包 来 连接 到 数据 库 ， 请 遵循 如 下 步骤 : 


1) 载 入 RJDBC 库 并 创建 一 个 连接 对 象 。 确 保 指 向 所 下 载 的 ,jar 文件 的 正确 位 置 : 


> library (RJDBC) 
> driver <- JDBC("com.mysgql.jdbc.Driver", 
classpath= 
"/etc/jdbc/mysgl-connector-java-5.1.34-bin.jar", "'") 
> con <- dbConnect (driver, "jdbc:mysql://host:port/Customer" 
"username", "password") 


2) 其 余 操 作 与 使 用 RMySQL 的 操作 完全 一 样 。 
工作 原理 
前 述 代码 首先 创建 了 一 个 三 行 的 名 为 order 的 数据 框 ， 然 后 用 各 种 方法 连接 到 一 个 MySQL 数 据 库 。 
1. 使 用 RODBC 
在 这 个 方法 中 我 们 执行 了 下 列 命 令 : 
> con <- odbcConnect ("cust dsn", uid="user", pwd="pwd") 


变量 con 现 在 连接 到 与 数据 框 相关 的 DSN。 所 有 后 续 的 数据 库 操作 都 将 调用 这 个 连接 对 象 。 当 完成 所 有 数据 库 操作 之 后 ， 我 


们 会 关闭 这 个 连接 。 


尽管 通常 不 会 从 R 中 为 数据 库 创 建 表 或 者 插入 数据 ， 我 们 也 同样 展示 了 这 种 做 法 。 函 数 sqlSave 将 R 数 据 对 象 中 的 数据 保存 到 
指定 的 表 中 。 我 们 使 用 了 append=FALSE， 因 为 当前 并 不 存在 这 张 表 ， 所 以 我 们 希望 R 先 创建 它 然后 再 插入 数据 。 如 果 表 已 经 存 
在 了 ， 你 可 以 使 用 append=TRUE。 


国 数 sqlQuery 执 行 了 所 提供 的 查询 并 以 一 个 数据 框 的 形式 返回 结果 。 
2. 使 用 RMySQL 
RMySQL 包 使 用 环境 变量 MYSQL HOME 来 获取 所 需要 的 库 : 


> dbWriteTable(con, "orders", order) 


eeeidbWriteTablesFicath WIAA. WRETEE, WeESelenak. Bilao, SUaHERrow.namesatEA—F]] 
插入 列表 中 ; 当 你 不 需要 它 时 ， 记 得 将 其 设 定 为 FALSE : 


> dbReadTable (con, "Orders") 


浮 数 dbReadTable 读 取 表 并 创建 一 个 数据 框 : 


> dbGetQuery (con,"select * from orders") 


国 数 dbGetQuery 执 行 查 询 并 以 一 个 数据 框 的 形式 返回 结果 。 当 一 张 表 很 大 时 ， 最 好 使 用 dbsendQuery 和 fetch 得 到 所 需要 
的 结果 : 


> rs <- dbSendQuery(con, "Select * from orders") 
> while(!dbHasCompleted(rs)) { 
+ fetch(rs,n=2) 


+ } 
> dbClearResult (rs) 
> dbDisconnect (con) 


国 数 dbsendQuery 返 回 rs， 一 个 结果 集 对 象 。 当 你 对 这 个 对 象 做 取 回 操作 时 ， 由 于 n=2， 所 以 它 从 数据 库 中 返回 了 两 条 记 
录 。 当 使 用 dbsendQuery 时 ， 使 用 循环 直到 dbHasCompleted 为 真 通常 是 个 好 主意 。 记 得 用 dbClearResult 清 除 指针 并 用 
dbDisconnect 关 闭 连 接 : 


> dbListConnections (dbDriver ("MySQL") ) 
国 数 dbListConnections 列 出 了 所 有 开放 的 连接 。 
3. 使 用 RJDBC 


通过 JDBC 我 们 可 以 连接 到 任何 类 型 的 数据 库 。 因 此 ， 我 们 需要 告诉 R 使 用 哪 种 驱动 。 一 旦 在 R 中 选 定 了 驱动 ， 接 下 来 我 们 便 
可 以 通过 合适 的 .jar 文 件 创建 到 数据 库 的 连接 。 


当 连 接 到 一 个 MySQL 数 据 库 乙 后 ， 所 有 获取 连接 对 象 的 命令 都 与 RMySQL 场 景 下 一 致 。 


数据 库 专 属 包 提供 了 很 多 功能 ， 绝 大 多 数 能 用 SQL 客 尸 端 完成 的 任务 也 可 以 在 R 环 境 下 完成 。 下 面 我 们 给 出 一 些 例子 。 


下 列 命令 可 用 来 获取 所 有 行 : 
> fetch(rs,n=-1) 
使 用 n=-1 来 获取 所 有 行 。 
2. 当 SQL 和 查询 语 句 很 长 时 
当 SQL 查 询 语句 很 长 时 ， 写 一 个 横 跨 多 行 的 单条 长 语句 是 很 伦 重 的 。 可 以 将 整 条 查询 语句 分 为 几 行 并 用 paste() 国 数 连 接 它 
们 ， 这 样 更 易 读 : 
> dbSendQuery(con, statement=paste 人 
"select ordernumber, orderdate, customername", 
"from orders o, customers c", 
"where o.customer = c.customer", 


"and c.state = 'NJ'", 
"ORDER BY ordernumber") ) 


Qz 注意 ， 这 里 用 单 引号 作为 字面 意义 上 的 引号 。 


11.8 从 非 天 系 型 数据 库 一 MongoDB 中 读 取 效 气 


己 天 系 型 数据 库 具 有 普 适 的 标准 流程 所 不 同 的 是 ，NoSQL 数 据 库 的 流行 结构 意味 着 没有 成 熟 的 标准 化 方法 。 我 们 将 通过 
rmongodb 包 操作 MongoDB 数 据 库 来 举例 说 明 。 
FEES LZ 

通过 以 下 步骤 准备 好 环境 : 

1) 下 载 并 安 丢 MongoDB。 

2) 从 后 台 启 动 mongod 并 启动 mongo。 

3) 创建 一 个 名 为 customer 的 新 数据 库 以 及 一 组 名 为 orders 的 集合 : 


use customer 

> db.orders.save({customername: "John", 

orderdate: ISODate ("2014-11-01") ,orderamount :1000}) 
db.orders.find() 

> db.save 


V 


V 


要 从 MongoDB 读 取 数 据 ， 请 遵循 如 下 步骤 : 
1) 安 丢 rmongodb 包 并 创建 一 个 连接 : 


install.packages ("rmongodb" ) 

library (rmongodb) 

mongo <- mongo.create() 

mongo .Create (host = "127.0.0.1", db = "customer") 


V V V V V 


mongo.is.connected (mongo) 


2) 获取 MongoDB 数 据 库 中 的 所 有 集合 : 

> coll<- mongo.get.database.collections (mongo, "customer") 
3) 找到 所 有 符合 的 记录 : 

> json <- "{\"orderamount\":{\"$lte\":25000}, 


\"orderamount\":{\"$gte\":1000}}" 
> dat <- mongo.find.all (mongo,coll,json) 


工作 原理 


国 数 mongo_ create 创建 了 一 个 mongo 会 话 。 如 果 没 有 传递 任何 参数 ， 它 会 通过 端口 27017 连 接 到 本 地 的 服务 ，mongod 
运行 在 这 个 端口 。 


用 mongo.is.connected (mongo) 以 确保 R 有 一 个 合法 的 mongo 会 话 。 


国 数 mongo.get.database.collections 列 出 了 数据 库 中 的 所 有 集合 。 


浮 数 mongo.find.all 列 出 了 连接 中 的 所 有 行 。 通 过 传递 一 个 合法 的 JSON 对 象 ， 这 个 查询 结果 会 补 这 个 JSON 对 象 所 限定 。 如 
果 没 有 传递 任何 JSON 对 象 ， 则 返回 所 有 行 。R 会 用 返回 值 创建 一 个 数据 框 。 


NoSQL 环 境 的 流动 性 以 及 MongoDB 的 产 新 特性 都 意味 着 rmongodb 包 会 频繁 改动 。 你 应 该 更 新 你 的 R 环 境 中 的 rmongodb 
包 来 获取 最 新 的 提升 。 你 应 该 在 使 用 前 考虑 JSON 表 达 式 的 合法 性 。 


验证 你 的 JSON 
由 于 符号 比较 特殊 ， 在 R 中 创建 JSON 结 果 会 比较 复杂 。 请 使 用 validate() 尔 数 来 确保 JSON 结 构 中 没有 错误 : 
> library (jsonlite) 
> json <- "{\"orderamount\":{\"Slte\":25000}, 


\"orderamount\":{\"Sgte\":1500}}" 
> validate (json) 


